当前位置:主页 > 科技论文 > 搜索引擎论文 >

改进的样本选择对分类算法影响的研究

发布时间:2017-04-28 00:00

  本文关键词:改进的样本选择对分类算法影响的研究,由笔耕文化传播整理发布。


【摘要】:机器学习是关于机器理解行为以及机器具有学习能力的机制,能够建立自主学习功能的计算机程序的学科。近年来机器学习理论在诸多应用领域得到成功的应用和发展,已成为计算机科学的基础及热点之一。机器学习已经有了十分广泛的应用如搜索引擎,市场营销,网络流量监测,证券市场,语音识别等。凡是在有经验存在的地方,机器学习方法都在其中扮演很重要的角色。监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。监督学习主要需要注意的问题有偏置方差权衡,功能的复杂性和数量的训练数据,输入空间的维数,噪声中的输出值等。本论文中主要验证的监督学习包括神经网络、决策树算法等。特征选择和样本选择主要用于解决学习过程中的样本维数过高或者样本数量过大的问题。特征选择能剔除不需要或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目。而样本选择如果能够在减少学习样本的基础上对原有的指标并没有影响,则必然十分有益的,除此之外,样本选择如果能够推荐给分类器更好的样本,必然也能够得到十分优秀的分类器。本文首先介绍样本选择的相关知识,引出样本选择的主要工作流程,对其不同的方法进行区别分类,对于不同的方法和类别进行分析,引出本论文提出的样本选择方法的思想。因为样本选择架构在分类器之前,所以本文首先大体介绍主流的分类模型,之后再详细推论本文需要实验的两个主要模型,分别是神经网络和决策树,并探讨样本选择方法应该用什么样的方式与分类器相结合。本文使用启发式算法的思想对样本选择方法进行设计,先论证了这一思想的正确性,并最终选用模拟退火的方式作为启发式算法的核心。提出一种基于启发式算法改进的样本选择方法,用来改进神经网络和决策树算法,在对改进算法进行大量的实验之后,对实验进行对比,总结出算法的优劣势何在,最终探讨改进算法的展望以及实际应用。
【关键词】:机器学习 监督学习 样本选择 神经网络 决策树
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP181
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-12
  • 1.1 论文研究的背景和意义8-9
  • 1.2 论文研究的内容和方法9-10
  • 1.3 本论文组织结构安排10-12
  • 第二章 样本选择相关知识12-18
  • 2.1 简单随机抽样12
  • 2.2 分层抽样12-13
  • 2.3 密度偏差抽样13
  • 2.4 KNN13-14
  • 2.5 遗传算法结合神经网络的方式14-15
  • 2.6 样本选择的评价15-16
  • 2.7 样本选择方法归纳16-18
  • 第三章 监督学习介绍18-28
  • 3.1 分类的基础和算法分析18-21
  • 3.1.1 决策树算法18-19
  • 3.1.2 KNN算法19
  • 3.1.3 VSM算法19
  • 3.1.4 贝叶斯法算法19-20
  • 3.1.5 神经网络算法20
  • 3.1.6 SVM算法20-21
  • 3.2 神经网络算法21-25
  • 3.2.1 神经网络基本原理21-22
  • 3.2.2 激活函数22
  • 3.2.3神经网络模型22-25
  • 3.3决策树25-28
  • 3.3.1 ID3算法26-27
  • 3.3.2 C4.5算法27-28
  • 第四章 改进的样本选择算法28-33
  • 4.1 模拟退火算法28-29
  • 4.2 样本主动学习介绍29-30
  • 4.3 改进的样本选择算法30-32
  • 4.4 算法的优缺点32
  • 4.5 算法的前景32-33
  • 第五章 实验33-44
  • 5.1 实验平台33
  • 5.2 实验数据33-36
  • 5.2.1 鲍鱼年龄数据33-34
  • 5.2.2 成年收入数据集34-36
  • 5.3 实验结果36-43
  • 5.3.1 模拟退火算法改进的BP神经网络实验36-40
  • 5.3.2 模拟退火算法改进的决策树实验40-43
  • 5.4 实验分析43-44
  • 第六章 总结与展望44-46
  • 6.1 总结44
  • 6.2 存在的问题以及展望44-46
  • 致谢46-47
  • 参考文献47-50

【相似文献】

中国期刊全文数据库 前6条

1 车凯;郭茂祖;刘晓燕;滕志霞;;植物抗性基因识别中样本选择的一种新方法[J];智能计算机与应用;2012年04期

2 刘涛;马红光;张永;刘振华;;改进的机载非正侧视阵STAP样本选择策略[J];现代雷达;2012年03期

3 彭现美;王有刚;;住户调查样本选择及数据误差问题探讨[J];统计与决策;2012年03期

4 姜文瀚;周晓飞;杨静宇;;核子类凸包样本选择方法及其SVM应用[J];计算机工程;2008年16期

5 杨宏晖;王芸;戴健;;水下目标识别中样本选择与SVME融合算法[J];西北工业大学学报;2014年03期

6 ;[J];;年期

中国博士学位论文全文数据库 前1条

1 姜文瀚;模式识别中的样本选择研究及其应用[D];南京理工大学;2008年

中国硕士学位论文全文数据库 前4条

1 陈美姣;样本选择问题的统计处理研究[D];浙江工商大学;2013年

2 储晓琛;改进的样本选择对分类算法影响的研究[D];安徽大学;2015年

3 程霄;非参数模型样本选择方法研究及其在风电机组状态监测中的应用[D];华北电力大学;2014年

4 张磊;样本选择模型及其在医疗费用研究中的应用[D];山西医科大学;2007年


  本文关键词:改进的样本选择对分类算法影响的研究,由笔耕文化传播整理发布。



本文编号:331665

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/331665.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户25081***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com