当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于粗糙集理论—神经网络集成的数据流分类方法研究

发布时间:2017-08-09 04:03

  本文关键词:基于粗糙集理论—神经网络集成的数据流分类方法研究


  更多相关文章: 粗糙集 属性约简 神经网络 集成学习 数据流


【摘要】:随着计算机技术、通信技术以及网络技术的飞速发展,许多信息系统在运行过程中都会产生大量的流式数据。典型的例子包括电信呼叫数据、股票交易数据、互联网通信数据、搜索引擎数据等。这种新的数据类型——数据流,是一种实时的、连续到达且速度快、规模宏大的数据有序序列。 数据流上的分类就是通过单遍扫描数据流,提出一个分类模型或函数,并利用该模型将数据对象映射到某一个给定的类别中。对数据流数据进行分类时主要的困难在于:数据包含大量的冗余属性,过多的属性会影响模型的构建速度和分类精度;同时,由于数据连续不断地持续到达,,分类模型必须随着数据的快速流入而实现高效地更新,从而达到分类模型能够正确地映射当前数据中的分类信息的目的。数据流数据的特殊性,决定了对数据流分类所采用的方法必须有别于传统的数据挖掘分类方法,同时分类方法和技术在不同的学科领域都有着非常广阔的应用前景,因此,研究稳定的、快速的、准确的数据流分类方法具有巨大的理论价值和应用价值。 本文将粗糙集理论和神经网络方法相结合,充分发挥了二者的优势互补性来应对数据流的高维性、数据量大等特点。粗糙集理论具有较强的不确定、不完整信息处理能力,并且只通过数据本身而无需任何多余的信息,就可以获得数据之间的相关性并约简属性个数;神经网络具有很强的非线性映射能力,在处理非线性模式时其精确度优于其他的数据挖掘方法,尤其适合处理大数据集数据,并且具有良好的容错性、自适应性和抗噪声干扰的能力。将二者的优势充分结合起来,能够有效地降低神经网络输入端的节点数,极大地简化神经网络的复杂结构,从而提高神经网络模型的分类预测精度。 另外,本文采用了滑动窗口技术来应对数据流流速快的问题,将数据流划分成若干个大小相同的数据块,每个数据块训练一个个体分类器,多个个体分类器组成一个集成分类器,利用集成方法能够有效地降低模型的泛化误差;并且,个体分类器的训练速度一般要高于单一模型的更新速度,也更加适合处理高速产生的数据流。 根据粗糙集理论、神经网络方法和集成学习理论,本文提出了一种基于粗糙集约简、神经网络集成的数据流分类方法,并且在实际数据上的对比仿真实验得到了很好的分类预测效果,从而证明了该方法是可行且有效的。
【关键词】:粗糙集 属性约简 神经网络 集成学习 数据流
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP18;TP311.13
【目录】:
  • 摘要5-7
  • Abstract7-11
  • 第1章 绪论11-19
  • 1.1 研究背景和意义11-13
  • 1.1.1 研究背景11-12
  • 1.1.2 研究意义12-13
  • 1.2 国内外研究现状13-16
  • 1.2.1 数据流分类研究现状13-15
  • 1.2.2 粗糙集神经网络研究现状15-16
  • 1.3 研究内容及创新点16-17
  • 1.3.1 研究内容16-17
  • 1.3.2 创新点17
  • 1.4 本文的组织结构17-19
  • 第2章 相关理论基础19-33
  • 2.1 数据流19-24
  • 2.1.1 数据流的定义及特点19-20
  • 2.1.2 数据流模型20-21
  • 2.1.3 数据流数据挖掘结构图及其技术21-24
  • 2.2 粗糙集24-27
  • 2.2.1 粗糙集概述24-26
  • 2.2.2 粗糙集的基本概念26-27
  • 2.3 神经网络27-32
  • 2.3.1 神经网络简介27
  • 2.3.2 神经网络模型和结构27-30
  • 2.3.3 改进的 BP 神经网络30-31
  • 2.3.4 BP 神经网络的结构设计31-32
  • 2.4 本章小结32-33
  • 第3章 基于粗糙集和神经网络多分类器集成的数据流分类模型构建33-47
  • 3.1 粗糙集和神经网络的结合33-36
  • 3.1.1 两种方法优势互补33-34
  • 3.1.2 两种方法结合的方式34-36
  • 3.2 数据流分类预测模型的构建思想及流程图36-38
  • 3.2.1 模型构建思想36-37
  • 3.2.2 模型流程图37-38
  • 3.3 构建模型38-46
  • 3.3.1 数据预处理38-39
  • 3.3.2 基于特征选择的属性约简方法39-40
  • 3.3.3 BP 神经网络各层参数的选择40-41
  • 3.3.4 集成分类器方法41-44
  • 3.3.5 神经网络多分类器集成用于数据流分类44-46
  • 3.4 本章小结46-47
  • 第4章 仿真实验与结果分析47-54
  • 4.1 实验数据47
  • 4.2 连续属性离散化47-49
  • 4.3 粗糙集属性约简49
  • 4.4 对比实验49-53
  • 4.5 本章小结53-54
  • 第5章 总结与展望54-56
  • 5.1 工作总结54
  • 5.2 研究展望54-56
  • 参考文献56-59
  • 致谢59-60
  • 攻读硕士学位期间科研及发表论文情况60

【参考文献】

中国期刊全文数据库 前4条

1 欧阳震诤;罗建书;胡东敏;吴泉源;;一种不平衡数据流集成分类模型[J];电子学报;2010年01期

2 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期

3 陈遵德;;Rough Set身经网络智能系统及其应用[J];模式识别与人工智能;1999年01期

4 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期

中国博士学位论文全文数据库 前1条

1 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年



本文编号:643388

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/643388.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78f9d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com