当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中的Pagerank排序算法研究分析

发布时间:2016-11-15 20:11

  本文关键词:搜索引擎中的Pagerank排序算法研究分析,,由笔耕文化传播整理发布。


《电子科技大学》 2010年

搜索引擎中的Pagerank排序算法研究分析

刘青伟  

【摘要】: Pagerank算法是当今网络搜索引擎巨匠Google的核心技术。本文对Google公司的这一算法在当今网络搜索及其应用领域进行详尽全面的分析和拓展。 知识检索是全新的信息检索方式,而随着互联网的发展,文本内容数量迅猛增加,文本知识检索成为知识检索重点。搜索引擎基于关键字的检索成为网页文本数据检索的主要方法。首先对基本的网页分析算法进行分析综述:如基于广度优先策略和最佳优先策略的网页抓取方法。页面分析算法可以大到从网页以及网页块粒度分析甚至网站粒度分析,还有基于内容的网页分析算法。海量网络信息以使传统通用搜索引擎出现各种局限性。 当今主流的网页搜索算法是由引文分析算法发展而来的Pagerank算法,也需要不断改进。本文首先通过自写的网络爬虫程序,来提取网页数据,供各算法实验数据参考分析使用。通过网络链接示意图简单阐述Pagerank算法的思想核心,本文重点研究计算Pagerank值。首先从传统的主题偏离现象和页面相关性角度来提出一种组合的Pagerank算法,然后从网页中悬挂节点问题出发,引入网页超链接矩阵,提出一种基于悬挂节点的线性系统来计算Pagerank值。然后引入基于乘幂法的外推插值方法计算PR值,它是通过计算齐次方程的特征向量求次大根,来计算Pagerank值,然后从线性系统出发,通过递归方式寻找超链接矩阵中的全零行来计算Pagerank值。最后分析扩展特征值法计算Pagerank和标准乘幂法在实际用例中的收敛速度。可以看出扩展特征值法比标准乘幂法优越。 随着Pagerank不断成熟,它将在更广的领域发挥更大的作用,越来越方面用户使用快速找到自己需要的信息,剔除更多的冗余信息。

【关键词】:
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:O223
【目录】:

  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 引言9-14
  • 1.1 研究背景9
  • 1.2 搜索引擎介绍9-10
  • 1.3 研究现状10
  • 1.4 本文研究内容10
  • 1.5 知识检索10-11
  • 1.6 文本知识检索11
  • 1.7 网页知识检索中存在的问题11-12
  • 1.8 搜索引擎中的关键字介绍12-14
  • 第二章 网页分析算法14-17
  • 2.1 网页的抓取方式策略14-15
  • 2.2 网页分析算法15-17
  • 2.2.1 网页粒度分析算法15
  • 2.2.2 网站粒度分析算法15-16
  • 2.2.3 网页块粒度分析算法16
  • 2.2.4 基于内容的网页分析算法16-17
  • 第三章 Pagerank 技术17-23
  • 3.1 Pagerank 介绍17
  • 3.2 通用搜索引擎的局限性17-18
  • 3.3 网页提取工具介绍18
  • 3.3.1 网络蜘蛛介绍18
  • 3.4 Pagerank 总体思想18-23
  • 3.4.1 Pagerank 算法过程步骤19-20
  • 3.4.2 Pagerank 算法的简单理解20-21
  • 3.4.3 完整 Pagerank 理解21-23
  • 第四章 Pagerank 算法的改进23-36
  • 4.1 组合 Pagerank 算法23-25
  • 4.1.1 组合 Pagerank 算法计算24-25
  • 4.1.2 获取网页数据25
  • 4.2 基于乘幂法的pagerank 算法25-26
  • 4.3 Pagerank 问题的重排序26-30
  • 4.3.1 悬挂节点问题26-28
  • 4.3.2 一种利用悬挂节点的线性系统28-30
  • 4.4 基于重排谷歌矩阵的 Pagerank 算法30-32
  • 4.4.1 重排谷歌矩阵的 Pagerank 算法介绍30-31
  • 4.4.2 重排谷歌矩阵的 Pagerank 算法步骤31
  • 4.4.3 重排谷歌矩阵的 Pagerank 算法分析31-32
  • 4.5 扩展特征值pagerank 算法32-36
  • 4.5.1 扩展特征值 Pagerank 算法介绍32-33
  • 4.5.2 扩展特征值pagerank 算法步骤33-34
  • 4.5.3 实验测试结果34-36
  • 第五章 总结和展望36-37
  • 5.1 总结36
  • 5.2 展望36-37
  • 致谢37-38
  • 参考文献38-40
  • 附录40-44
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国期刊全文数据库 前1条

    1 王文娟;何利力;廖化生;;基于本体的企业搜索引擎研究[J];工业控制计算机;2012年02期

    【参考文献】

    中国期刊全文数据库 前2条

    1 王春红;刘紫玉;付宏燕;;基于本体和多代理的知识检索模型研究[J];计算机工程与设计;2009年09期

    2 沈国海,穆斌,胡学钢;语义Web本体及本体库系统设计技术[J];微机发展;2004年07期

    【共引文献】

    中国期刊全文数据库 前5条

    1 曹丽英;张晓贤;伞晓辉;陈桂芬;;基于本体的玉米病害知识库的构建与集成实现[J];中国农机化;2012年06期

    2 李玲;袁兆山;张敏;;扩展UDDI以支持语义信息的研究[J];计算机技术与发展;2008年07期

    3 王金环;李宝敏;;基于本体DL的语义推理研究[J];计算机技术与发展;2009年11期

    4 罗军;刘艺茹;;本体和描述逻辑在景点查询中的应用研究[J];计算机技术与发展;2012年06期

    5 杨人子;严洪森;;基于知识网的知识表达度量方法及其应用[J];系统工程理论与实践;2010年06期

    【同被引文献】

    中国期刊全文数据库 前10条

    1 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期

    2 吴汉荣;曾勇军;;Simply Hired:职位搜索新天地[J];电脑与电信;2009年03期

    3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

    4 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期

    5 何国斌;赵晶璐;;Web页面主题相关性排序算法的研究[J];计算机工程与应用;2009年23期

    6 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期

    7 杨劲松;凌培亮;;搜索引擎PageRank算法的改进[J];计算机工程;2009年22期

    8 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期

    9 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期

    10 李晓明;王韬;刘东;杜江凌;;走进多核时代[J];计算机科学与探索;2008年06期

    【二级参考文献】

    中国期刊全文数据库 前6条

    1 袁文勤;王直杰;张珏;苏翔;;基于Ontology的网络知识管理系统的构建[J];计算机应用;2005年S1期

    2 刘高勇;汪会玲;;Agent技术对知识社区协同学习的支持及其实现[J];情报理论与实践;2006年03期

    3 蒋翠清;幸龙潮;丁勇;;基于多Agent的知识管理系统模型研究[J];情报杂志;2007年02期

    4 姜华;;基于本体的多主体网络协作学习模型研究[J];计算机工程与设计;2007年02期

    5 袁新娣;邱桃荣;徐新爱;;基于本体的教学领域知识库建模研究[J];计算机工程与设计;2007年13期

    6 余传明;;基于J2EE的语义检索研究[J];计算机工程与设计;2007年14期

    【相似文献】

    中国期刊全文数据库 前10条

    1 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期

    2 杨海东,张莉;PageRank技术分析与搜索引擎检索效率研究[J];淮阴师范学院学报(自然科学版);2003年03期

    3 黎斌;鲜明;;web超链分析技术[J];科技信息(学术研究);2008年09期

    4 张佳;梁少华;;Web结构挖掘与其基于超链接结构的算法[J];科技信息;2007年02期

    5 张光年;李茂青;;基于PageRank算法的一种搜索引擎优化方法及实现[J];科技信息;2007年04期

    6 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期

    7 徐昭苏;;网站推广之SEO[J];科技信息(科学教研);2008年09期

    8 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期

    9 王毅;江小玲;;基于PageRank算法的引擎搜索优化策略研究[J];科技资讯;2008年11期

    10 姜博;;网页PageRank算法分析及主题相关性的改进策略[J];中国科技信息;2010年22期

    中国重要会议论文全文数据库 前10条

    1 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年

    2 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    3 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    4 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    5 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年

    6 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

    7 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

    8 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    9 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年

    10 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

    中国重要报纸全文数据库 前10条

    1 本报记者 马文方;[N];中国计算机报;2008年

    2 喻宁;[N];经理日报;2004年

    3 文/大海;[N];计算机世界;2004年

    4 复旦大学国际政治系博士 沈逸;[N];东方早报;2010年

    5 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;[N];计算机世界;2003年

    6 本报记者 王翌;[N];计算机世界;2004年

    7 文/老鬼阿定;[N];计算机世界;2004年

    8 本报实习记者 田娴;[N];通信信息报;2004年

    9 北京 窦芳芳;[N];电脑报;2001年

    10 本报记者 顾洪文;[N];计算机世界;2003年

    中国博士学位论文全文数据库 前10条

    1 王菁华;文本中知识的获取[D];北京邮电大学;2008年

    2 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年

    3 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

    4 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年

    5 于红;Web结构挖掘与高维数据挖掘研究[D];大连理工大学;2012年

    6 刘淇;基于用户兴趣建模的推荐方法及应用研究[D];中国科学技术大学;2013年

    7 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年

    8 俞唯仁;普适的结构相似度在大规模网络中的计算优化技术研究[D];东华大学;2012年

    9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年

    10 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年

    中国硕士学位论文全文数据库 前10条

    1 赵波;PageRank算法在非网页检索问题中的应用[D];复旦大学;2010年

    2 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年

    3 姜玥旭;PageRank算法的改进及在生物网络数据上的应用[D];吉林大学;2012年

    4 李更生;基于时间反馈和分类技术的PageRank算法改进研究[D];北京化工大学;2013年

    5 乔红光;基于改进PageRank算法的文献价值评估方法研究[D];河北大学;2013年

    6 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年

    7 李稚楹;基于网页内容和时间反馈的网页排序PageRank算法研究[D];重庆理工大学;2012年

    8 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年

    9 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年

    10 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年


      本文关键词:搜索引擎中的Pagerank排序算法研究分析,由笔耕文化传播整理发布。



    本文编号:176192

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/176192.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户261de***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com