博客媒体分析系统设计与实现

发布时间：2024-05-22 02:21

　　随着网络的发展,博客已经被越来越多的人用来分享信息和讨论热门话题,截止到2015年上半年,博客用户规模就已经达到47,457万人。在面对海量且繁杂的博客数据时,用户需要得到自己感兴趣并且有一定价值的信息,也想要了解近段时间内的热门话题。博客分析,成为了一种十分有必要的舆论监测手段。但是,这其中也存在着一些问题有待解决,比如博客每天都有更新,怎样让分析做到实时,保证分析的博客语料是当下最新发布的;如何更好地利用博客数据,做到有针对性,更全面地分析博客等等。本文的主要工作有:(1)设计并实现了博客媒体分析系统。系统主要分为前期的语料预处理模块以及后期的分析模块。语料预处理模块是对博客语料进行爬取和抽取,首先对博客语料进行详细分析,得出实现系统功能所需要属性方便后期爬虫爬取语料,爬取完毕后将博客语料的每一个属性抽取出来,对其进行索引的构建,索引构建是检索的前提,后期的分析模块需要以检索这些语料为基础。分析模块需要对构建的索引进行检索调用,完成相应分析。分析功能主要有时间检索,关键字检索,趋势分析、聚类分析以及用户分析等功能。设计好之后,确定系统框架以及所使用的技术并加以实现。(2)在实现系统...

【文章页数】：54 页

【学位级别】：硕士

【部分图文】：

图２．２主题网络爬虫体系结构??２．１．３增量式网络爬虫??

生了变化的页面。和之前的策略相比，可以有效减少无用数据的下载，但是由于??需要判断页面是否更新，该页面是否己经被爬取过，会需要额外的算法去计算，??增加了其复杂度［６］。其体系结构如图２．３所示。??６??

图２．３增量式爬虫体系结构??２．１．４深度网络爬虫??

表单分析和页面保持。在爬取过程中会首先判断网页是普通网页还是深度页面，??如果是深度页面，则提交合适的表单参数来访问该页面，获取更多信息［７］。其体??系结构如图２．４所示。??７??

图２．４深度网络爬虫体系结构??２．２?Ｌｕｃｅｎｅ??

计成了抽象类［１２］，所有的索引以及搜索操作均由相应类调用方法完成，这样，可??以很方便进行二次开发。接下来讨论Ｌｕｃｅｎｅ如何将这些抽象类组织起来实现相应??功能［１３］［１４］，组织结构如图２．５所示。??８??

图２．５?Ｌｕｃｅｎｅ组织结构图??２．２．２?Ｌｕｃｅｎｅ索引结构??

Ｌｕｃｅｎｅ中的索引和传统的正向索引有所不同，是倒排索引，一种相较于正向??索引更加优秀的索引结构。??正向索引结构如图２．６所示。??／?７?Ｉ?Ｉ?ｊ?Ｉ?｜?｜?！??／文档１?／?？！关键词１?ｉ出现次数位置列表！?？关键词２?Ｉ出现次数－位置列表！???／?／?Ｉ?１?....

本文编号：3980255

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3980255.html

上一篇：清初金石学研究——以著述、访碑、品赏为中心
下一篇：微纳卫星相对轨道机动控制技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|