当前位置:主页 > 科技论文 > 信息工程论文 >

时间序列数据分类、检索方法及应用研究

发布时间:2016-07-06 12:06

  本文关键词:时间序列数据分类、检索方法及应用研究,由笔耕文化传播整理发布。


中国料孽教求犬誊博士学位论文时间序列数据分类、检索方法及应用研究作者姓名:郑毅学科专业:计算机应用技术导师姓名:陈恩红教授赵建良教授完成时间:二。一五年五月

ottSo"cienceandVlsreviechnoloqvnanihofCUniversit)ofTech:)logyna

Adissertationfordoctor’SdegreeSeriesClassification.RetrievalMethodsandApplicationsAUthorjYiZheng—Speciality:ComputerApplicationTechnologySupervisor:Prof.EnhongChenProf.J.LeonZhaoFinishedTime:May,2015Time

中国科学技术大学学位论文原创性声明

本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。

作者签名:签字日期:印侈.17∥驴3

中国科学技术大学学位论文授权使用声明

作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。

保密的学位论文在解密后也遵守此规定。

酎公开口保密年

作者签名:丝蓝选

签字日期:导师签名:2里竺:!笸=12签字日期:砂\∑。06j寸7

摘要

摘要

时间序列数据是一类重要的具有时序特征的数据对象。时间序列数据可以通过科学应用以及其他商业应用(例如,金融领域)方便的获取得到。一个时间序列是一组按照时间先后顺序排列好的数据采样观察值。具体地,时间序列数据的性质包括:数据规模大(大数据),高维度以及流数据特性(数据更新连续)。此外,时间序列数据采样点具有连续性和数值特性,整个时间序列可以被看成是一个整体的数据对象而非每个单独具体的数值采样点。由于时间序列可以方便的采集得到,大量的时间序列数据可以用于科学研究和深入的数据挖掘。在过去十年中,大量的科学工作者致力于时间序列数据挖掘工作,并取得了很多有效的成果。与此同时,由于时间序列数据的复杂特性,实际应用中时间序列数据挖掘面临了很多挑战。时间序列数据挖掘的目的之一是从时序数据形状角度,尝试抽取所有有意义的知识。整体上来看,时间序列数据挖掘同更一般的数据挖掘任务类似,同样是为了更好的挖掘、抽取得到可以用于进一步分析和应用的知识表示。尽管人类可以很直观的、很自然的通过时间序列数据“形状”上的特性获知每个时间序列的潜在知识,诸如:类别,是否相似,是否是反转点等。然而,对于任何一部计算机,它都只能完成基本的机械式的计算任务。任何包括类似人的这种感知、理解、识别的能力,计算机都无法直接获得。因此,包括数据挖掘、机器学习在内的领域,其根本任务均为设计相应的模型和算法,从某种程度上通过程序使得计算机获得这种智能的感知、理解和识别等能力。

本文着重探索时间序列数据挖掘的若干问题。具体而言,本论文从时间序列数据分类、时间序列数据检索以及时间序列表示和建模等方面入手,结合现实生活中的若干具体问题提出了相应的模型和方法,并通过大量实验验证了这些方法的有效性和其在性能上的优势。本篇论文的主要目的之一是通过机器学习和数据挖掘的方法,结合具体工业、科学领域的具体问题,设计并提出解决相应问题的模型和方法,从而更好的解决现实世界中对应的时间序列数据的问题。我们希望本篇论文能够提供一种新的看待时间序列数据的视角给相关时间序列研究人员,从而使该工作获得更广泛的关注并被扩展、引申出更多深入的研究工作。

本文盼研究内容分为四个部分,分别探索时间序列表示方法,多元时间序列分类问题,时间序列快速检索以及时间序列分段表示以及建模问题。针对以上四个具体的时间序列数据挖掘问题,结合现实世界中四个具体的问题,我们相应的提出了四个具体的模型方法来解决这些问题。

在过去十几年里,时间序列数据挖掘中的序列分类问题引起了学术界大量的关注。相应地,以往学者提出了许多有关时间序列分类的方法,并且认为基于最近邻(k-NeartestNeighbor,特别是1-NN)的方法是目前效果最好的分类方T

摘要

法。对于给定的具体分类问题,由于基于最近邻方法的分类效果主要依赖于距离度量的选择,因此,如何对给定问题选择一个合适的距离度量成为了时间序列数据挖掘中的一个热门的研究问题。

目前,针对时间序列数据,已经存在许多基于不同角度设计的距离度量方法。其中,应用最为广泛的两个距离度量方法是欧式距离(Euclidean

和动态时间反转(DynamicTimedistance)Warping)。欧氏距离是一种简单有效的度量方法,在一些实际的时间序列数据分类中,它可以获得比较好的分类效果。相对地,动态时间反转引入了两个序列对齐的概念,从而允许两个时间序列不同时间点的数据进行对齐。这种序列对齐的方法使得动态时间反转在一些分类场景下获得了比欧式距离好的效果。然而,动态时间反转主要的一个缺点是它需要更多的计算开销,并且,尽管结合1-NN方法,在许多场景下,它可以获得最好的分类效果,但是对于其他一些实际应用问题,它的分类效果没有明显优于其他度量方法。目前的研究结果表明,没有一种时间度量方法能够在所有时间序列数据上都可以获得最好的分类效果。另一方面,一般来说距离度量的选择需要人为的经验选择,,因此,这需要大量的人力成本和时间开销。因此,对于时间序列数据如何自动的选择一个合适的距离度量是目前时间序列数据挖掘领域的一个挑战。

借鉴特征学习的方法,我们探索距离度量学习方法在时间序列数据上的应用。具体地,通过距离度量的学习,针对不同的数据,我们可以自动的学习得到更好地距离度量方法,从而可以提升时间序列分类的准确率。过去几年,许多距离度量学习方法已经被提出。其中,一种通过线性变换的模型名为近邻成分分析(NeighborhoodComponentsAnalysis,NCA)的方法,通过学习得到的原始数据的低维表示方法,结合肛NN分类器,从而提升了分类的准确率。然而,这种简单的线性变换的局限在于它不能够对原始数据高阶的相关性进行建模,从而影响了分类的效果。因此,基于NCA方法,另一种称为非线性近邻成分分析(NonlinearNCA)的距离度量学习方法被提出。这种方法能够学习获得原始数据更好的低维空间表示,从而可以获得比线性近邻成分分析方法更好的分类的准确率。遗憾的是,对于时间序列数据,以上两种距离度量学习方法不能够捕捉到时间序列的本质特性,即时间轴上的偏移(timeshift)。

为了能够捕捉时间轴上偏移的特性,我们结合卷积神经网络的优点,即时空不变形,针对时间序列数据,提出了一种全新的距离度量学习方法。具体地,我们基于非线性近邻成分分析方法(NNCA),设计了一种名为卷积非线性近邻成分分析的距离度量学习方法(CNNCA)。该方法不仅能够学习得到低维空间的非线性数据映射,并且可以捕捉到时间序列在时间轴上的偏移。通过学习得到数据的低维空间表示,结合1-NN分类器,我们通过大量实验证明了,对于许多数据集,这种基于卷积非线性近邻分析方法学习得到的距离表示可以获得比传统欧式距离,动态时间反转,基于窗口约束的DTW更好的分类效果。特别对TT


  本文关键词:时间序列数据分类、检索方法及应用研究,由笔耕文化传播整理发布。



本文编号:66157

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/66157.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户66307***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com