当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于链接和内容分析的自适应主题爬虫算法

发布时间:2017-07-29 00:21

  本文关键词:一种基于链接和内容分析的自适应主题爬虫算法


  更多相关文章: 主题爬虫 OTIE算法 Shark-Search算法 隧道穿越


【摘要】:主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿越问题。从ODP中选择主题和种子网页,将本算法与Best-First算法、Shark-Search算法和OTIE算法进行比较。实验结果表明,本算法不仅具有明显较好的查全率,而且具有很好的查准率。
【作者单位】: 重庆大学计算机学院软件理论与技术重庆市重点实验室;
【关键词】主题爬虫 OTIE算法 Shark-Search算法 隧道穿越
【基金】:国家自然科学基金资助项目(61272914)
【分类号】:TP391.3
【正文快照】: 0引言随着互联网的迅猛发展,网络上信息资源在快速膨胀,根据中国互联网络信息中心(CNNIC)发布的第33次《中国互联网络发展状况统计报告》[1],截至2013年12月,中国网站数量全年增长52万个,增长率为19.4%,达到320万,而中国网页数量同比增长了22.2%,达到1500亿个。为了能够从这浩

【参考文献】

中国硕士学位论文全文数据库 前2条

1 曾铭;垂直搜索技术在社交网站中的应用与研究[D];北京邮电大学;2013年

2 罗磊;微博舆情热点检测与跟踪方法研究[D];杭州电子科技大学;2013年

【共引文献】

中国期刊全文数据库 前10条

1 吴麒;陈兴蜀;朱锴;王春晖;;基于ODP的上下文主题描述方法[J];电子学报;2012年11期

2 刘喜文;郑昌兴;王文龙;汤刚强;;构建数据仓库过程中的数据清洗研究[J];图书与情报;2013年05期

3 许明;吴建平;杜怡曼;谢峰;肖云鹏;;基于三部图的路网节点关键度排序方法[J];北京邮电大学学报;2014年S1期

4 张胜;;谱聚类在图像识别中的应用[J];安徽电子信息职业技术学院学报;2014年02期

5 张喜平;李永树;刘刚;王蕾;;节点重要度贡献的复杂网络节点重要度评估方法[J];复杂系统与复杂性科学;2014年03期

6 龚卫华;郭伟鹏;杨良怀;;信任网络中多维信任序列模式挖掘方法研究[J];电子与信息学报;2014年08期

7 何钧雷;;以主题爬虫视角进行数字资源的建设探析[J];电子技术与软件工程;2014年16期

8 田雪筠;;网络竞争情报主题采集技术研究[J];图书与情报;2014年05期

9 吴哲;郭宇春;陈常嘉;;基于用户关系的在线社会网络关键用户识别算法[J];北京交通大学学报;2014年05期

10 仲兆满;李存华;刘宗田;管燕;;一种基于搜索策略的多主题信息采集方法[J];电子学报;2014年12期

中国重要会议论文全文数据库 前3条

1 许明;吴建平;杜怡曼;谢峰;肖云鹏;;基于三部图的路网节点关键度排序方法[A];2013年全国通信软件学术会议论文集[C];2013年

2 纪雪梅;王芳;;在线社交网络用户情感传播研究[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年

3 谭金波;;Flash资源智能搜索系统架构与关键技术研究[A];全国计算机辅助教育学会“计算机辅助教育软件开发与应用”研讨会论文集[C];2009年

中国博士学位论文全文数据库 前10条

1 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年

2 李朋;异构信息网络分析模型及其应用研究[D];重庆大学;2013年

3 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年

4 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

5 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年

6 曾雪;在线社交网络用户的分类及采样研究[D];电子科技大学;2013年

7 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年

8 龚家瑜;基于数据挖掘的药物靶标发现方法研究[D];华东理工大学;2013年

9 廉捷;基于用户特征的社交网络数据挖掘研究[D];北京交通大学;2014年

10 布凡;文本信息度量研究[D];清华大学;2013年

中国硕士学位论文全文数据库 前10条

1 徐东坤;面向互联网的构件获取技术研究[D];大连海事大学;2010年

2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

3 刘建明;垂直搜索引擎中的主题爬虫技术研究[D];广东工业大学;2013年

4 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年

5 褚宏爽;主题搜索引擎网络爬虫的设计与实现[D];北京邮电大学;2013年

6 刘徐;网页特征词典生成模型的设计与实现[D];北京邮电大学;2013年

7 周林云;Web信息采集系统设计与实现[D];西南交通大学;2013年

8 杜娜;高校DL信息资源管理研究[D];安徽大学;2013年

9 王瑶华;基于变精度粗糙集的网络舆情预警研究[D];武汉理工大学;2013年

10 王芳;面向领域的智能深度搜索引擎的研究[D];北京工商大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 朱林;王士同;潘永惠;韩斌;;K平面聚类算法的模糊改进及其鲁棒性研究[J];电子与信息学报;2008年08期

2 邱立坤;龙志yN;钟华;程葳;;层次化话题发现与跟踪方法及系统实现[J];广西师范大学学报(自然科学版);2007年02期

3 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期

4 郭少友;;自动分类中的文档表示及其改善方法研究[J];信息技术;2008年08期

5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期

6 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期

7 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

8 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期

9 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期

10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

中国硕士学位论文全文数据库 前2条

1 杨冠超;微博客热点话题发现策略研究[D];浙江大学;2011年

2 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年



本文编号:586705

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/586705.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c27b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com