当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题模型的科技新闻分析系统的设计与实现

发布时间:2023-01-14 15:14
  二十一世纪以来,人类社会的科技水平飞速发展,在此背景下产生了大量的科技文献与科技新闻内容。这些资源一方面带来了丰富数据和信息,另一方面也带来了信息超载的难题。面对互联网上庞大的知识网络,科研人员很难高效地从科技新闻网站上获取有价值的科技热点信息。近年来,数据挖掘逐渐成为热门学科,很多自然语言处理技术被应用于新闻分析领域并取得了很好的效果。因此本文针对科技新闻信息过载的问题,对主题聚类和关键词提取等技术展开研究,实现了一个完整的科技新闻分析系统,帮助用户高效获取新闻信息。本文主要的工作内容如下:(1)本文提出了改进的BTM模型,通过在吉布斯采样过程中引入词与文档的关联程度,解决了传统BTM模型中词语权重相同的问题,实验结果表明,和同类模型相比,该算法在主题一致性和JS散度上都有所提升。(2)由于传统的关键词提取算法没有考虑关键词和文章主题之间的联系,因此本文将主题模型与词向量模型相结合,综合考虑词语的主题特征和统计特征来进行关键词提取。因为在词语和文章中间加入了主题层,所以该方法提取的关键词和文章有较好的语义相关性。(3)设计并实现了完整的科技新闻分析系统。该系统可以根据主题对科技新闻进... 

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 主题模型研究现状
        1.2.2 关键词提取研究现状
    1.3 主要工作内容
    1.4 论文结构
第二章 关键技术综述
    2.1 主题模型
        2.1.1 关键主题模型概述
        2.1.2 LDA主题模型
        2.1.3 BTM主题模型
    2.2 关键词提取
        2.2.1 关键词提取概述
        2.2.2 TF-IDF
        2.2.3 TextRank
    2.3 词向量
        2.3.1 Word2Vec综述
        2.3.2 CBOW模型
        2.3.3 Skip-gram模型
    2.4 本章小结
第三章 基于语义扩展的BTM主题模型研究
    3.1 BTM主题模型的研究与优化
        3.1.1 BTM模型的不足
        3.1.2 W-BTM模型原理
        3.1.3 利用W-BTM模型提取关键词
    3.2 实验设计与结果分析
        3.2.1 实验数据
        3.2.2 评价标准
        3.2.3 实验结果及分析
    3.3 本章小结
第四章 系统需求分析与总体设计
    4.1 系统需求分析
        4.1.1 系统功能需求分析
        4.1.2 系统性能需求分析
    4.2 系统整体架构设计
    4.3 系统模块设计
        4.3.1 模块划分与流程设计
        4.3.2 模块功能设计
    4.4 系统数据库设计
        4.4.1 E-R图设计
        4.4.2 数据表设计
    4.5 本章小结
第五章 系统详细设计与实现
    5.1 系统架构的实现
        5.1.1 系统开发环境
        5.1.2 项目创建流程
        5.1.3 项目结构
    5.2 数据采集模块设计与实现
        5.2.1 数据采集模块设计
        5.2.2 数据爬虫的实现
        5.2.3 数据预处理的实现
    5.3 数据搜索模块设计与实现
        5.3.1 数据搜索模块设计
        5.3.2 数据搜索模块实现
    5.4 主题分析模块设计与实现
        5.4.1 主题聚类的设计
        5.4.2 主题聚类的实现
        5.4.3 关键词提取的设计
        5.4.4 关键词提取的实现
    5.5 可视化模块设计与实现
        5.5.1 可视化模块设计
        5.5.2 可视化模块实现
    5.6 本章小结
第六章 系统测试
    6.1 测试环境
    6.2 系统功能测试
        6.2.1 数据采集与预处理测试
        6.2.2 数据搜索测试
        6.2.3 主题分析与可视化测试
    6.3 系统性能测试
        6.3.1 系统响应时间测试
        6.3.2 系统易用性测试
        6.3.3 算法可靠性测试
    6.4 本章小结
第七章 总结与展望
    7.1 总结
    7.2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]第41次《中国互联网络发展状况统计报告》发布[J].   中国广播. 2018(03)
[2]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰.  计算机学报. 2011(08)

硕士论文
[1]基于主题模型和词向量的短文本语义挖掘研究[D]. 李思宇.太原理工大学 2018
[2]基于主题模型的话题聚类算法的研究[D]. 张丹.北京邮电大学 2017
[3]一种用于文本理解的高效关键词抽取算法[D]. 韩军华.南京大学 2016



本文编号:3730677

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3730677.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户029da***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com