当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Fish-search算法的垂直搜索引擎研究与设计

发布时间:2017-08-07 20:01

  本文关键词:基于Fish-search算法的垂直搜索引擎研究与设计


  更多相关文章: 搜索引擎 相关度 主题爬虫 Fish-search算法


【摘要】:互联网的高速发展使得网络信息资源急剧的增长,通用搜索引擎在信息的检索方面已经无法满足用户的需求,如今信息检索追求的是准确性,同时信息检索应具有一定的深度。通用搜索引擎返回给用户的信息虽然多,但并不是用户所需要的信息,所以通用搜索引擎检索的结果虽然覆盖全面,但是在检索的结果准确性方面还是差了一些。针对这种问题的出现,专业化的垂直搜索引擎也被提了出来。垂直搜索引擎就是一种针对特定领域或者特定主题的搜索引擎,在搜索结果的准确性方面有了很大的提高,一定程度上满足了用户检索的需求。 论文中主要研究的就是垂直搜索引擎的设计,垂直搜索引擎的核心模块就是主题爬虫。主题爬虫就是抓取与主题相关的网页,并下载该网页。所以重点就在于如何判断主题与网页的相关度,论文中采用了改进的布尔模型进行网页与主题相关度的计算,相关度不但决定了当前网页是否需要存储,同时也是待爬链接列表中链接优先级的参考值,而且还是最后检索结果排序的主要依据;另外主题爬虫的爬行策略采用的是改进的Fish-search算法。网页下载后还需要提取其中的重要内容作为检索的条件以及网页的信息描述,网页信息抽取方式采用的是正则表达式进行相关信息的匹配并提取出正确匹配的信息。用户检索需要的信息时根据输入的关键词推荐一些与关键词相关的搜索词或者短句,为用户提供更友好的检索界面。 论文最终完成了垂直搜索引擎的设计,与通用搜索引擎相比较,在检索特定的主题关键词时,本文设计的垂直搜索引擎检索的结果要比通用搜索引擎检索的结果准确得多,而且本文设计的搜索引擎检索的结果页面大多与主题具有很好的相关性。所以在特定领域,本文设计的垂直搜索引擎在检索结果的准确性方面有很大的提高,基本上达到了论文研究的目的。
【关键词】:搜索引擎 相关度 主题爬虫 Fish-search算法
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-12
  • 插图或附表清单12-13
  • 引言13-14
  • 1 绪论14-18
  • 1.1 课题的背景及研究意义14-15
  • 1.2 国内外研究发展现状15-16
  • 1.3 论文的主要研究内容16
  • 1.4 论文的结构16-18
  • 2 垂直搜索引擎简介18-25
  • 2.1 通用搜索引擎简介18-20
  • 2.1.1 通用搜索引擎的发展历史18-19
  • 2.1.2 通用搜索引擎的分类19-20
  • 2.2 垂直搜索引擎概述20-23
  • 2.2.1 垂直搜索引擎基本概念20-21
  • 2.2.2 垂直搜索引擎的主要模块21-23
  • 2.3 垂直搜索引擎与通用搜索引擎区别23-24
  • 2.4 本章小结24-25
  • 3 垂直搜索引擎关键技术25-36
  • 3.1 主题相关性判定25-26
  • 3.1.1 布尔模型25
  • 3.1.2 向量空间模型25-26
  • 3.2 网页结构化信息抽取技术26-29
  • 3.2.1 结构化信息抽取简介26-27
  • 3.2.2 结构化信息抽取规则生成方式27-28
  • 3.2.3 结构化信息主要的抽取技术28-29
  • 3.3 索引技术29-32
  • 3.3.1 索引简介及框架结构29-30
  • 3.3.2 倒排索引30-32
  • 3.4 中文分词技术32-35
  • 3.4.1 中文分词概述32-33
  • 3.4.2 中文分词的主要方法33-35
  • 3.4.3 中文分词的选择35
  • 3.5 本章小结35-36
  • 4 主题爬虫搜索策略的设计36-46
  • 4.1 主题爬虫简介36-39
  • 4.1.1 主题爬虫的工作原理36-37
  • 4.1.2 主题爬虫的结构37-39
  • 4.2 主要的搜索策略39-41
  • 4.3 主题爬虫算法设计41-45
  • 4.3.1 Fish-search算法改进内容41-42
  • 4.3.2 相关度判定模型改进42-44
  • 4.3.3 网页链接选择方式改进44-45
  • 4.4 本章小结45-46
  • 5 垂直搜索引擎的设计与实现46-55
  • 5.1 主题种子初始化模块46-47
  • 5.1.1 主题种子选择46
  • 5.1.2 主题的描述46-47
  • 5.2 网页采集模块47
  • 5.3 网页分析模块47-50
  • 5.3.1 编码的处理47-48
  • 5.3.2 网页信息抽取48-49
  • 5.3.3 网页信息描述49-50
  • 5.4 索引模块50-51
  • 5.5 用户检索模块51-52
  • 5.5.1 检索结果排序51
  • 5.5.2 相关搜索推荐51-52
  • 5.6 系统分析52-54
  • 5.7 本章小结54-55
  • 结论55-57
  • 参考文献57-59
  • 致谢59-60
  • 作者简介及主要科研成果60

【参考文献】

中国期刊全文数据库 前6条

1 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期

2 王改香;;搜索引擎的体系结构与索引技术探析[J];长江大学学报(自然科学版);2011年03期

3 凌美秀;关于搜索引擎当前存在的主要问题及其发展趋势的探讨[J];高校图书馆工作;2001年05期

4 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

5 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期

6 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期

中国博士学位论文全文数据库 前1条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年



本文编号:636426

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/636426.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6904***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com