当前位置:主页 > 科技论文 > 搜索引擎论文 >

全自动网页信息采集系统

发布时间:2017-08-14 09:09

  本文关键词:全自动网页信息采集系统


  更多相关文章: Heritrix HtmlParser 网络爬虫 信息提取


【摘要】:随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合Html Parser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。
【作者单位】: 长春理工大学计算机科学技术学院;
【关键词】Heritrix HtmlParser 网络爬虫 信息提取
【分类号】:TP393.092;TP391.3
【正文快照】: 搜索引擎存在一定的局限性,会导致搜索的结果不能很好满足用户的需求。例如,在一个搜索引擎中,搜索一个信息,互联网中会搜到成百上千的相关链接,甚至几万个相关链接,其中存在着一些无效和重复的链接,即便是有效的链接,数量也是庞大的。面对这些庞大的数据,如果通过逐一查看,将

【参考文献】

中国期刊全文数据库 前7条

1 吴伟;陈建峡;;基于Heritrix的web信息抽取优化与实现[J];湖北工业大学学报;2012年02期

2 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期

3 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期

4 张敏;孙敏;;基于Heritrix限定爬虫的设计与实现[J];计算机应用与软件;2013年04期

5 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期

6 陈俊彬;曹树金;;基于Heritrix的Web信息抽取[J];图书情报工作;2009年09期

7 火善栋;;基于网页结构特征的网页主要文本信息抽取策略[J];现代计算机(专业版);2008年04期

【共引文献】

中国期刊全文数据库 前10条

1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

2 师小庆;袁志;王学成;;基于Web的学生信息检索系统设计[J];才智;2011年34期

3 张福泉;;人工智能在主题搜索策略中的应用[J];重庆科技学院学报(自然科学版);2009年04期

4 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期

5 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期

6 卿秀华;;基于Lucene和Heritrix的全文检索引擎的研究与应用[J];电脑知识与技术;2012年13期

7 郭一平;向晖;王亮;;基于Lucene的Ftp搜索引擎的设计[J];高校图书情报论坛;2005年04期

8 吴菊英;贾炅昊;冯秀芳;;基于农业领域的网络爬虫[J];电脑开发与应用;2012年08期

9 陶荣;;中文分词技术及JE中文分词器在Nutch中的运用与实现[J];广西教育;2013年07期

10 邹伟;刘永学;李满春;张荷霞;陈映雪;;南海历史地理争端空间分布与关联性研究[J];地球信息科学学报;2014年02期

中国重要会议论文全文数据库 前4条

1 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

2 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

3 徐晓东;郭燕慧;;AppStore应用信息自动化采集系统设计与实现[A];2013年中国信息通信研究新进展论文集[C];2014年

4 徐晓东;郭燕慧;;App Store应用信息自动化采集系统设计与实现[A];2013年中国信息通信研究新进展论文集[C];2014年

中国博士学位论文全文数据库 前3条

1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年

2 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年

3 周俊静;基于激光雷达的智能车辆目标识别与跟踪关键技术研究[D];北京工业大学;2014年

中国硕士学位论文全文数据库 前10条

1 戴雪梅;面向购物的聚类搜索引擎的研究与实现[D];北京交通大学;2011年

2 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

3 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年

4 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年

5 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年

6 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年

7 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年

8 程明波;全景式搜索引擎关键技术研究与实现[D];哈尔滨工业大学;2010年

9 汪明强;基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现[D];河北工业大学;2011年

10 隋玉航;基于WebHarvest的中文财经新闻搜索引擎的设计与实现[D];华中科技大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期

3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期

4 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期

5 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期

6 冀高峰;汤庸;道炜;吴桂宾;黄帆;王鹏;;基于XML的自动学习Web信息抽取[J];计算机科学;2008年03期

7 朱明,王军,王俊普;基于多层模式的多记录网页信息抽取方法[J];计算机工程;2001年09期

8 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期

9 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

10 金砚硕;迟呈英;战学刚;;一种基于隐马尔可夫聚类的信息提取方法[J];情报杂志;2008年03期

【相似文献】

中国期刊全文数据库 前10条

1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期

2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期

3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期

4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期

5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期

6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期

7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期

8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期

9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期

10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期

中国重要会议论文全文数据库 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国重要报纸全文数据库 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

中国博士学位论文全文数据库 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年

2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年

3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年

4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年

5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年

6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年

7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年

8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年

9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年

10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年



本文编号:671859

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/671859.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05576***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com