当前位置:主页 > 科技论文 > 软件论文 >

面向新闻网页的主题识别及自动分类系统的设计与实现

发布时间:2024-02-04 20:38
  随着互联网技术的迅速发展与普及,网络资源正在呈现爆炸式增长,其主要表现形式则是以网页这一载体而存在的。虽然互联网丰富的信息资源带来了一定的便利性,但是用户无法在海量的信息资源中快速定位到自己所需的信息,因此网页分类这个问题就应运而生。随着分类技术的发展,网页分类对准确率和效率提出了更高的要求;此外新闻网页作为日常获取信息的媒介,大多数新闻网站的分类标准并不统一,采用分类技术可以有效地对不同新闻网站的网页进行统一标准化分类与管理。首先,本文为明确系统的需求,对系统的整体任务概述、功能需求和业务整体过程进行了分析,阐明了设计新闻网页主题识别及自动分类系统的必要性。其次,针对新闻网页特性表示问题,对网页分类特征进行分析,完成网页内容特征选择工作;研究分析了LDA主题模型,完成新闻网页文本的主题识别,获取主题词,将得到的内容特征和主题词共同作为文本特征;提出一种特征项、特征向量和标签结构位置三元组的方式对网页特征集进行表示。通过对每一个文本特征引入对应的结构特征,并将其转化为结构向量,完成联合特征向量构建。再次,针对网页分类模型问题,分析与研究了机器学习分类模型和卷积神经网络分类模型。基于改进...

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

图3-5特征词向量示例图

图3-5特征词向量示例图

哈尔滨工业大学工程硕士学位论文-25-词向量设置成k维,k是指在进行词嵌入向量转化时映射成的K维实数向量,把结构向量设置成m维大小,k和m决定了联合特征矩阵的列宽度。将上述得到的网页的联合特征矩阵共同作为分类模型的输入,进行模型的学习训练。3.5实验与分析本节以真实环境下爬取的新....


图3-6主题-词分布图

图3-6主题-词分布图

哈尔滨工业大学工程硕士学位论文-26-在表3-1中,本文以“足球”特征词为例,得到相似特征词,同时得到两个词在语义空间的相似度值。通过以上实验分析得到,使用词嵌入特征向量可以在语义上进行相似度计算,相比于传统的空间向量表示模型对特征项进行表示,可以充分学习文本的语义关系,保留了词....


图4-5CNN网络架构图

图4-5CNN网络架构图

哈尔滨工业大学工程硕士学位论文-30-一种,CNN网络结构由输入层、卷积层、池化层、全连接层组成[46]。CNN的网络架构图如图4-5所示。图4-5CNN网络架构图输入层,就是把一个网页的特征向量矩阵作为输入数据送入CNN模型,并且和卷积层连接起来,进行卷积操作。特征矩阵中的每一....


图4-8精确率对比图

图4-8精确率对比图

哈尔滨工业大学工程硕士学位论文-38-的卷积神经网络网页分类方法TFCNN[18](TextFeaturesConvoltionalNeuralNetworks,TFCNN),TFCNN是基于在CNN模型的基础上只使用网页的文本特征向量作为模型的特征矩阵,来进行实验验证分析。图4....



本文编号:3895819

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3895819.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户67097***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com