当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题的网络蜘蛛的设计与实现

发布时间:2017-04-02 22:03

  本文关键词:基于主题的网络蜘蛛的设计与实现,由笔耕文化传播整理发布。


【摘要】:在因特网飞快发展的当代,因特网上的信息像漫天的星宿不断的发展、变化。搜索引擎也有所创新,不再成为固定的模式。无变化的搜索引擎会快速淘汰。由此,如何为用户提供高质量的、全面的、更新迅速的信息搜索平台成为了不可忽视的问题。有的搜索引擎具有很大程度上的局限性。所有的web信息被有些引擎企图索引。继而要为所有的主题提供查询请求。比较而说,提供主题搜索的引擎只会锁定与特定主题密切联系的web区域,所以通过主题搜索的使用可以使内容更为深入。根据相应的信息回馈,使用主题搜索可相应缩短搜索周期。固主题搜索可以满足用户的搜索体验。根据主题进行的搜索引擎如今成为了计算机科学和信息产业互相竞争的领域。作者在设计角度与实现可能性出发,对和搜索引擎有关联的技术作了较为详细的分析与讨论,首先对搜索引擎今后的发展情况和现在全球的搜索引擎现状进行研究,然后在分析搜索引擎的工作原理,对其各部分主要功能进行评估。对两个为题进行研究:网络蜘蛛的搜索策略,页面的主题关联。对与主题相关的网络蜘蛛的全面建立提出可行性建议。提出了网络蜘蛛的设计程序的相应思路,从HTML页面解析的概念着手,通过使用尊于搜索内容评价的搜索策略,设计相关问题,得到设计出使中小型网站专业网页的信息获取都适用的网络蜘蛛,提出此网络蜘蛛的爬行算法继而使用java语言达成体系。另外,本文还针对URL重复和动态页面内容两大难题给出了解决方案。
【关键词】:主题搜索 网络蜘蛛 相关度计算
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 中文摘要3-4
  • ABSTRACT4-8
  • 引言8-10
  • 第1章 搜索引擎概述10-24
  • 1.1 搜索引擎简介10-19
  • 1.1.1 搜索引擎的诞生13
  • 1.1.2 搜索引擎的分类13-14
  • 1.1.3 搜索引擎的原理14-17
  • 1.1.4 搜索引擎发展趋势17-19
  • 1.2 主题型搜索引擎概述19-22
  • 1.2.1 产生背景19-21
  • 1.2.2 主题型搜索引擎21-22
  • 1.3 主题搜索的研究与发展现况22
  • 1.4 网络蜘蛛22-23
  • 1.5 本文的主要工作23-24
  • 第2章 主题蜘蛛技术概述24-32
  • 2.1 网络蜘蛛简介24-25
  • 2.2 网络蜘蛛关键技术25-26
  • 2.3 主题蜘蛛的搜索策略26-28
  • 2.3.1 基于内容评价的搜索策略26-27
  • 2.3.2 基于链接结构评价的搜索策略27-28
  • 2.4 主题相关度计算28-30
  • 2.4.1 HTML链接标签29
  • 2.4.2 本文的主题相关度计算方法29-30
  • 2.5 初始URL的选择30-31
  • 2.5.1 Web主题关联模型30-31
  • 2.5.2 初始URL的选择方法31
  • 2.6 本章小结31-32
  • 第3章 页面正文提取与中文分词32-40
  • 3.1 页面正文提取技术32-37
  • 3.1.1 HTML简介32-33
  • 3.1.2 HTML文档标准化33-34
  • 3.1.3 构造标签树34
  • 3.1.4 HTML内容分块技术34-35
  • 3.1.5 正文块提取35-36
  • 3.1.6 正则表达式36-37
  • 3.2 中文分词简介37-39
  • 3.2.1 中文分词常用算法38-39
  • 3.3 本章小结39-40
  • 第4章 基于主题的蜘蛛设计与实现40-60
  • 4.1 数据库主要表设计40-42
  • 4.1.1 Link表40-41
  • 4.1.2 Topic表41
  • 4.1.3 Document表41-42
  • 4.2 架构设计42-43
  • 4.3 作业管理器43-44
  • 4.4 线程管理器44-48
  • 4.4.1 多线程技术44-46
  • 4.4.2 线程管理器46-48
  • 4.5 Spider类的实现48-50
  • 4.6 重复检测技术实现50-51
  • 4.7 中文分词技术实现51-57
  • 4.7.1 词典结构设计52-53
  • 4.7.2 构建词典53-54
  • 4.7.3 切词实现54-57
  • 4.8 动态网页内容获得技术实现57-58
  • 4.9 实验效果58-59
  • 4.10 本章小结59-60
  • 第5章 主题蜘蛛性能分析60-62
  • 5.1 主题蜘蛛的性能分析60-61
  • 5.2 本章小结61-62
  • 第6章 主题词典62-65
  • 6.1 主题词典的建立62-63
  • 6.2 主题词典的维护63-64
  • 6.3 本章小结64-65
  • 结论65-66
  • 参考文献66-69
  • 致谢69

【相似文献】

中国期刊全文数据库 前10条

1 于俊洋;李俊;;基于C#的网络蜘蛛的设计和实现[J];中国教育信息化;2008年21期

2 陈瑜芳;何克右;;网络蜘蛛的设计与实现[J];现代计算机(专业版);2009年11期

3 包桂燕;;网络蜘蛛搜索策略评价[J];民营科技;2010年04期

4 潘欣;吕静波;张素莉;;基于网络蜘蛛的新词自动发现算法研究[J];长春工程学院学报(自然科学版);2011年03期

5 李浩;蒋,

本文编号:283204


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/283204.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ca0e0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com