当前位置:主页 > 管理论文 > 统计学论文 >

基于机器学习的中文自动文摘技术研究与实现

发布时间:2022-07-13 10:52
  大数据时代,互联网上的信息呈爆炸式增长,人们更多的在网络上搜索知识、浏览新闻。因此,快速、高效的获取主要信息是人们的共同需求。文摘是一篇文章的精炼概括,既反映了文章的主题又极大地降低了人们获取主要信息的成本。随着计算机技术的发展,使用计算机自动的获取文本摘要信息成为现实。在自然语言处理领域,不断提高自动文摘的精准度成为重要的研究方向。本文对基于机器学习方法的抽取式自动文摘进行了深入研究。在文本信息的特征提取方面,首先总结了基于统计和规则的文本特征;其次融入了中文语言学方面的特征,如:词性特征、语义角色特征、依存句法特征、语义依存特征;最后引入基于深度学习的Word2vec词向量特征。最终将文本中的句子转换为347维的特征向量作为机器学习模型的输入。在考虑了数据集人工文摘形式的基础上,利用文本信息的这些丰富特征,使用了六种经典的回归算法模型对文本信息进行自动文摘抽取。与传统方法进行对比,拥有丰富特征集合的机器学习方法提高了自动文摘的性能。在此基础上,利用表现优异的模型对时事新闻进行了自动文摘抽取,得到了不错的效果。 

【文章页数】:54 页

【学位级别】:硕士

【文章目录】:
中文摘要
ABSTRACT
第1章 绪论
    1.1 研究的背景和意义
    1.2 国内外研究状况
        1.2.1 自动文摘的分类
        1.2.2 抽取式自动文摘方法
        1.2.3 自动文摘评价指标
第2章 基于多种特征融合的机器学习方法
    2.1 特征提取
    2.2 算法选择
        2.2.1 多元线性回归算法
        2.2.2 K近邻算法
        2.2.3 K-D树算法
        2.2.4 CART回归树算法
        2.2.5 随机森林算法
        2.2.6 GBDT算法
    2.3 回归算法评价
第3章 实验过程及结果分析
    3.1 数据预处理
    3.2 特征转化
    3.3 实验结果展示及模型评价
    3.4 模型应用
第4章 结论
参考文献
致谢
学位论文评阅及答辩情况表


【参考文献】:
期刊论文
[1]OA中文文献自动摘要系统[J]. 王永成,许慧敏.  情报学报. 1997(02)
[2]中文文献摘要的自动编制[J]. 莫燕,王永成.  现代图书情报技术. 1993(03)
[3]中文科技文献文摘的自动编写[J]. 苏海菊,王永成.  情报学报. 1989 (06)



本文编号:3659909

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3659909.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户abf6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com