当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网页分块的主题搜索引擎的研究与实现

发布时间:2016-12-20 15:51

  本文关键词:基于网页分块的主题搜索引擎的研究与实现,由笔耕文化传播整理发布。


《浙江工业大学》 2009年

基于网页分块的主题搜索引擎的研究与实现

高乐  

【摘要】: 搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要求日益提高,主题搜索引擎必然成为搜索引擎的发展方向。然而,随着网页主题的多元化,以网页为最小单位进行处理的主题搜索引擎存在链接预测不准确、隧道穿越能力低、网页消重效果差、检索质量不高等问题,导致了主题搜索时易出现主题漂移现象。基于以上问题,本文将网页分块技术应用于主题搜索,在主题搜索时将网页中的内容块作为最小处理单元,而不再是整个网页。 但传统网页分块算法对多主题网页分块效果不好,因此不适合应用到主题搜索引擎中。针对这一问题,本文提出一种能适应多主题网页分块的新算法CTVPS,该算法充分利用网页中的视觉信息、标签信息和链接信息,同时在分块过程中提出若干启发规则来控制分块的精度和粒度。在完成了网页分块的基础上,本文提出了与之适应的主题相关块提取方法即将文本分类中的分类模型移植到内容块分类中,实现了主题相关内容块的提取。最终使主题搜索引擎在链接预测准确度、索引容量和检索质量等问题上得到较大改进,从而降低主题漂移问题的出现。 在基于网页分块的主题搜索引擎系统Search Smart的设计和实现中,本文将网页分块作为Search Smart的核心,同时对开源搜索引擎Nutch进行了分析和代码复用。最后,通过Search Smart系统的运行和测试,对系统的爬行性能、检索质量两个重要指标进行了结果分析,最终验证了本文思想正确性并提出后续可能的改进方向。

【关键词】:
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3
【目录】:

  • 摘要5-6
  • ABSTRACT6-9
  • 第1章 绪论9-16
  • 1.1 研究背景9-13
  • 1.1.1 主题搜索引擎9-11
  • 1.1.2 网页分块的提出11-12
  • 1.1.3 网页分块研究现状12-13
  • 1.2 研究意义13
  • 1.3 本文主要工作13-14
  • 1.4 论文组织结构14-16
  • 第2章 主题搜索引擎与网页分块技术16-31
  • 2.1 主题搜索引擎16-20
  • 2.1.1 搜索引擎基本工作原理16-17
  • 2.1.2 主题搜索引擎与通用搜索引擎的区别17-19
  • 2.1.3 主题搜索引擎的关键技术19-20
  • 2.2 网页分块20-25
  • 2.2.1 网页的结构特征20-21
  • 2.2.2 网页分块基本技术手段21-24
  • 2.2.3 网页分块的应用24-25
  • 2.3 网页分块应用在主题搜索中的主要作用25-30
  • 2.3.1 链接预测26
  • 2.3.2 隧道穿越26-28
  • 2.3.3 网页消重28
  • 2.3.4 索引容量28-29
  • 2.3.5 检索质量29-30
  • 2.4 本章小结30-31
  • 第3章 CTVPS网页分块算法及主题相关块提取31-44
  • 3.1 网页预处理31-34
  • 3.1.1 网页标准化31-32
  • 3.1.2 构建Dom树32-34
  • 3.2 网页分块34-38
  • 3.2.1 标签信息34-35
  • 3.2.2 视觉信息35
  • 3.2.3 链接信息35-36
  • 3.2.4 分块算法描述36-38
  • 3.3 主题相关内容块提取38-43
  • 3.3.1 主题描述39
  • 3.3.2 向量空间模型39-41
  • 3.3.3 主题相关块提取描述41-43
  • 3.4 本章小结43-44
  • 第4章 Search Smart系统的设计实现44-57
  • 4.1 系统设计44-45
  • 4.1.1 系统的设计思想44
  • 4.1.2 系统的架构44-45
  • 4.2 系统实现准备工作45-53
  • 4.2.1 开源项目选择46-47
  • 4.2.2 开源搜索引擎Nutch47-53
  • 4.3 Search Smart的实现53-56
  • 4.3.1 网页抓取模块54
  • 4.3.2 网页解析及网页分块模块54
  • 4.3.3 主题相关块提取模块54-55
  • 4.3.4 索引模块55
  • 4.3.5 检索模块55-56
  • 4.4 本章小结56-57
  • 第5章 Search Smart系统测试和结果分析57-65
  • 5.1 系统测试57-61
  • 5.1.1 测试环境57
  • 5.1.2 测试的准备工作57-58
  • 5.1.3 主题网站索引库内容的建立58-59
  • 5.1.4 使用Tomcat进行搜索测试59-61
  • 5.2 结果分析61-64
  • 5.3 Search Smart的可能改进64
  • 5.4 本章小结64-65
  • 第6章 总结与展望65-67
  • 6.1 本文总结65-66
  • 6.2 工作展望66-67
  • 参考文献67-71
  • 致谢71-72
  • 攻读学位期间参加的科研项目和成果72
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国硕士学位论文全文数据库 前2条

    1 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年

    2 易清亮;面向主题的P2P搜索引擎的研究[D];西华大学;2010年

    【参考文献】

    中国期刊全文数据库 前7条

    1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期

    2 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

    3 朱亮,顾俊峰,马范援;基于Mobile Agent的搜索引擎关键技术研究[J];计算机工程;2000年08期

    4 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期

    5 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期

    6 冯晋,李春平;基于统计学和语义信息的中文文本主题识别技术[J];清华大学学报(自然科学版);2005年S1期

    7 常璐,夏祖奇;搜索引擎的几种常用排序算法[J];图书情报工作;2003年06期

    【共引文献】

    中国期刊全文数据库 前10条

    1 张辉;吴辉;刘瑞;周刚;;科技资源信息检索关键技术[J];北京航空航天大学学报;2006年09期

    2 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期

    3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期

    4 张俊芬;;搜索引擎之竞价排名的法律问题研究[J];北京邮电大学学报(社会科学版);2009年06期

    5 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期

    6 胡彧;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期

    7 殷妮哿;;Internet中的多媒体快速查询[J];电脑开发与应用;2009年09期

    8 鹿文超;;论利用服务器日志优化搜索引擎的研究[J];电脑知识与技术;2008年21期

    9 胡静芳;沈亚斌;;基于Web的新闻采集系统[J];电脑知识与技术;2009年19期

    10 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

    中国重要会议论文全文数据库 前7条

    1 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年

    2 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

    3 董红斌;苏中滨;;基于Mobile Agent的信息搜索技术[A];全国计算机网络应用年会论文集(2001)[C];2001年

    4 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

    5 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

    6 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

    7 张凯;丁国栋;张刚;;GatherCore:一种面向采集系统的工具集[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    中国博士学位论文全文数据库 前10条

    1 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年

    2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

    3 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年

    4 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年

    5 李卫;领域知识的获取[D];北京邮电大学;2008年

    6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年

    7 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年

    8 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年

    9 刘孝男;移动P2P网络中基于方向搜索算法的研究[D];吉林大学;2010年

    10 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年

    中国硕士学位论文全文数据库 前10条

    1 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年

    2 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年

    3 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年

    4 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年

    5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

    6 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年

    7 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年

    8 许成文;基于B/S模式的网络考试系统[D];河北科技大学;2011年

    9 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年

    10 徐西孟;基于OODA决策循环的主题发现技术的研究与设计[D];济南大学;2011年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期

    2 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期

    3 易清亮;刘克剑;蔡祖恋;;基于P2P技术的大型分布式FTP搜索引擎研究[J];广西师范大学学报(自然科学版);2010年01期

    4 李卫东;;基于DOM的半结构化网页信息抽取算法[J];河北省科学院学报;2009年01期

    5 张兆中;基于HTML标记信息的主题相关性判定方法[J];淮阴师范学院学报(自然科学版);2005年03期

    6 何国斌;赵晶璐;;Web页面主题相关性排序算法的研究[J];计算机工程与应用;2009年23期

    7 姚国祥;罗伟其;沈镇林;;网上信息搜索技术与搜索引擎[J];计算机科学;2000年07期

    8 吴敏琦;丁岳伟;;基于Nutch的XML网站全文搜索引擎实现[J];计算机工程;2008年15期

    9 余斯恒,郑扣根,陈丹;一种面向商业领域的搜索引擎索引结构设计及实现[J];计算机工程与科学;2005年12期

    10 徐飞;孙劲光;;中文分词切分技术研究[J];计算机工程与科学;2008年05期

    中国硕士学位论文全文数据库 前10条

    1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年

    2 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年

    3 徐传运;基于主题相关的P2P全文搜索引擎的研究[D];重庆大学;2006年

    4 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年

    5 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年

    6 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年

    7 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年

    8 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年

    9 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年

    10 傅士光;基于主题的搜索引擎的研究与实现[D];北京交通大学;2007年

    【二级参考文献】

    中国期刊全文数据库 前2条

    1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

    2 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期

    【相似文献】

    中国期刊全文数据库 前10条

    1 周勇生;你知道网页是怎样工作的吗[J];多媒体世界;2000年12期

    2 李莹;网页中多层效果的灵活使用[J];电脑编程技巧与维护;2000年06期

    3 李凡希;保存网页的好方法[J];电脑爱好者;2000年18期

    4 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期

    5 陆伟;如何制作和发布网页[J];现代通信;2001年03期

    6 叶知秋;特酷网页轻松做[J];电脑爱好者;2001年15期

    7 沁心;网页自动演示小工具——HTML Autorunner[J];电脑爱好者;2001年18期

    8 赵杰;刘志宇;邢军;;网页设计与开发[J];牡丹江师范学院学报(自然科学版);2001年03期

    9 陈劲宏;网页减肥两三招[J];电脑知识与技术;2003年27期

    10 温传伟;网页图片“当当当”[J];电脑知识与技术;2003年30期

    中国重要会议论文全文数据库 前7条

    1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

    2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

    3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年

    5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

    6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

    7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

    中国重要报纸全文数据库 前10条

    1 范德生 邓亚玲;[N];电脑报;2005年

    2 贞;[N];中国电脑教育报;2002年

    3 杨耀祥;[N];中国电脑教育报;2003年

    4 网天;[N];大众科技报;2000年

    5 杨兴平 六子;[N];电脑报;2004年

    6 河北 李永波;[N];电脑报;2004年

    7 ;[N];中国电脑教育报;2004年

    8 刘成富;[N];计算机世界;2004年

    9 绵阳南山 iled;[N];电脑报;2001年

    10 陈宗伟;[N];电脑报;2004年

    中国博士学位论文全文数据库 前2条

    1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

    2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

    中国硕士学位论文全文数据库 前10条

    1 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年

    2 熊茜;虚拟表示模型在网页结构化设计中的应用[D];重庆大学;2006年

    3 秦超;网页噪声识别与消除方法研究[D];山东科技大学;2011年

    4 郭安;从韩国网页设计看网页艺术设计的视觉呈现[D];武汉理工大学;2008年

    5 李翠轻;网页设计中视觉传达与信息传递的统一性研究[D];河北大学;2009年

    6 万唯一;基于数字水印的网页防篡改技术研究[D];西南交通大学;2012年

    7 刘晨曦;网页去噪音与分类算法研究[D];华侨大学;2008年

    8 罗利民;网页防篡改技术的研究与应用[D];中南大学;2008年

    9 聂璐;论网页界面设计中的人性化因素[D];湖南师范大学;2010年

    10 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年


      本文关键词:基于网页分块的主题搜索引擎的研究与实现,由笔耕文化传播整理发布。



    本文编号:221158

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/221158.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户5723d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com