当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于贝叶斯主题爬虫的研究与实现

发布时间:2017-08-07 19:32

  本文关键词:基于贝叶斯主题爬虫的研究与实现


  更多相关文章: 贝叶斯分类器 主题爬虫 中文分词 特征选择


【摘要】:随着互联网的发展,人们越来越依赖于通过网络搜索自己想要的信息,而目前网上信息量庞大,用户对搜索引擎的功能和内容提出了更高的要求,希望搜索引擎能够为其提供更加专业的信息服务,逐渐向主题化的方向发展。使用Web文档分类技术可以根据用户定义目标主题,更加有效地筛选和管理Web资源,智能化地从Web上收集与主题相关的网页集合,提高信息检索的效率,它目前已成为主题爬虫的研究热点之一。本文基于贝叶斯分类器,针对主题爬虫展开研究,研究工作主要包括以下几项:1.主题爬虫体系结构的设计。通过分析主题爬虫的工作原理,研究出主题爬虫的功能组成结构,分析了HTML网页的组织结构关系,设计网页链接提取方案,搜索策略以及主题相似度计算模型的方法。2.构造财经、体育和汽车三个主题分类器。通过研究朴素贝叶斯原理,应用朴素贝叶斯分类算法,设置合适的平滑因子,通过样本训练该分类器,构造出了财经、体育和汽车三个主题的分类器。3.网页采集与内容处理。研究了网页处理相关技术如提取正文、中文分词、统计词频、特征选择和链接提取等内容,通过分析开源框架IKAnalyzer,DF统计词频和HtmlParser,使得网页内容和链接提取和处理得到实现。4.实现主题爬虫系统。通过建立Http请求并获得网页,对其提取正文,中文分词,特征选择,并使用分类器分析主题,同时融合多线程技术,实现了基于贝叶斯分类器的主题爬虫系统。最后,通过本文构造出的财经、体育和汽车这三个主题的分类器,从一些门户网站中采集大量的网页数据,利用本研究中提出的方法对网页进行主题分类测试,爬虫试验效果优良,完成了课题要求。
【关键词】:贝叶斯分类器 主题爬虫 中文分词 特征选择
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1


本文编号:636355

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/636355.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c989***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com