当前位置:主页 > 科技论文 > 搜索引擎论文 >

互联网搜索引擎搜索策略和算法的研究

发布时间:2017-06-07 16:15

  本文关键词:互联网搜索引擎搜索策略和算法的研究,由笔耕文化传播整理发布。


【摘要】:现阶段,互联网行业的蓬勃发展是有目共睹的。以百度、阿里、腾讯为首的互联网公司竞相角逐,抢占着每一片互联网市场,例如最近一年非常火的O2O电商(online to offline,即线下商品,线上交易),2014年过年非常红的微信红包、百度的大数据迁徙等,互联网都在深刻的改变着人们的生活。在互联网的世界里,有一块市场非常重要,它是互联网的入口,80%以上的互联网流量都需要经过它的分发,这就是搜索引擎。因为互联网公司的网址实在太多,网页数更是可怕,Google(谷歌)目前统计的数字是100亿,大部分想去各家网站的人都会选择通过搜索行为进行跳转。从中我们可看出搜索引擎的好坏直接决定着人们的互联网生活,决定着整个互联网流量的分发,对整个互联网生态都有很大的影响。本文先简单介绍了搜索引擎的背景和意义,说明了研究搜索引擎的重大意义。介绍了搜索引擎的国内外动态,重点介绍了Google和百度,这是现阶段最成功的两家搜索引擎,他们的现状对搜索生态的发展至关重要,最后引出了搜索引擎算法的现状和不足,并提出了解决办法。现阶段搜索引擎主要的搜索算法分爬取部分和排序部分。第二章重点介绍了现阶段的爬虫策略和排序策略,这些策略很多都是个人使用后的一些感触。通过对算法的分析,提出了新的算法:爬取部分的广度优先搜索的并行化思想以及排序策略部分的页面评分排序策略。第三章从产品化策略去分析搜索引擎,单从搜索算法上去看搜索,并不是一个搜索引擎的全部,和真正的搜索引擎相差很远。第三章通过在搜索引擎公司的实习,学到了一个真正的搜索引擎是什么样子的,单纯的算法只是其中的一小部分,提出通过产品化的策略提升搜索引擎的搜索效果,并进行了详细的介绍和分析。第四章主要是针对第二章提出的两种改进算法,在Linux系统上通过集成Nutch爬虫[20]、Solr服务器(主流搜索引擎数据存储服务器)、tomcat监控器、中文分词、前端页面等控件,实现了一个真实的搜索引擎,并对其中很多的代码进行修改,实现了广度优先并行化算法和页面评分排序策略,通过最后的实验数据分析,证明了对爬取效率和排序策略的提升。最后简单介绍了搜索引擎的发展方向,给出了一个比较良好的愿景。可以让人们享受到更好的搜索服务。搜索引擎还是有很大的发展空间的。很多技术现阶段都没有实现,例如个性化搜索、智能化搜索等。
【关键词】:并行化 页面评分排序策略 搜索引擎产品化
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 1 绪论10-13
  • 1.1 搜索引擎的背景及意义10-11
  • 1.2 搜索引擎的国内外动态、水平11
  • 1.3 本文研究内容和解决问题11-13
  • 2 主流的搜索策略和算法13-32
  • 2.1 主流搜索引擎架构和搜索算法策略13-20
  • 2.1.1 yahoo的架构和搜索算法策略14-15
  • 2.1.2 Google的架构和搜索算法策略15-17
  • 2.1.3 百度的架构和搜索算法策略17-18
  • 2.1.4 三家搜索结果对比分析18-20
  • 2.2 抓取算法分析20-24
  • 2.2.1 广度优先搜索策略20
  • 2.2.2 深度优先搜索策略20-21
  • 2.2.3 广度优先搜索的并行化思想21-22
  • 2.2.4 最佳优先搜索策略22-23
  • 2.2.5 分类抓取搜索策略23-24
  • 2.2.6 基于链接分析抓取算法24
  • 2.3 排序策略分析24-32
  • 2.3.1 语义分析24-27
  • 2.3.2 排序策略分析27-32
  • 3 搜索引擎的产品化策略32-41
  • 3.1 资源合作优化搜索效果32-35
  • 3.2 优质展现形态优化搜索结果35-38
  • 3.3 垂直搜索优化搜索结果38-41
  • 4 搜索算法的实验设计和结果分析41-55
  • 4.1 爬虫部分和并行化效果分析41-47
  • 4.1.1 Hertrix爬虫42-44
  • 4.1.2 Nutch爬虫44-47
  • 4.2 Linux下Solr服务器47-48
  • 4.3 集成Ikanalayzer中文分词器48-49
  • 4.4 页面评分排序策略的实现49-50
  • 4.5 搜索引擎的web前端展现50-51
  • 4.6 排序策略的效果分析51-53
  • 4.7 爬虫的网页定向抓取53-55
  • 5 搜索引擎的发展和新技术55-60
  • 5.1 数据挖掘和神经网络55-56
  • 5.1.1 数据挖掘55-56
  • 5.1.2 神经网络56
  • 5.2 P2P搜索理念56-57
  • 5.3 交叉语言检索57-58
  • 5.4 全面智能化58-60
  • 结论60-61
  • 致谢61-62
  • 参考文献62-65
  • 攻读学位期间的研究成果65

【相似文献】

中国期刊全文数据库 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

中国重要会议论文全文数据库 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国重要报纸全文数据库 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

中国博士学位论文全文数据库 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年

2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

3 张W,

本文编号:429605


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/429605.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2e204***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com