当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎设计分析与结果聚类改进 .pdf文档全文免费阅读、在线看

发布时间:2016-09-16 12:06

  本文关键词:搜索引擎设计分析与结果聚类改进,,由笔耕文化传播整理发布。


分类号 密级 uDc注! 学 位 论 文 搜索引擎设计分析与结果聚类改进 题名和副题名 董祥千 作者姓名 指导教师姓名 左志宏 苗啦数授 电壬科撞太堂 送鳌 职务、职称、学位、单位名称及地址 申请专业学位级别硕士专业名称 计算机软件与理论 2006.12 论文提交日期 论文答辩日期 2007.1 学位授予单位和日期 电壬抖技太堂 答辩委员会主席 要壅丝. 评阅人碑熬 i尊芝品 2006年,乒月驴日 注1:注明《国际十进分类法uDC》的类号。 摘要 摘要 搜索引擎是获取信息的有效工具,设计与实现搜索引擎是一项庞大的工程, 要运用较多专业技术知识。本文力图通过实例分析,介绍搜索引擎的设计、实现、 搜索结果聚类及其它与搜索引擎紧密相关的知识。 文中指出了搜索引擎在提取摘要信息上存在的不足:仅选取关键词临近区域 的语词并不具语义特征,为此提出了以文本的语义特征词来替换摘要信息。文中 同时对语义特征词的提取进行了理论分析,并实现了部分功能。 本文利用后缀数组来提取文档的语义特征词,因此对后缀数组的结构作了详 细的阐述,提出以完全子串来表示文档的语义特征。文中实现了后缀数组的构造, 左、右完全子串及完全子串的提取。 本文还对搜索引擎的聚类过程、以及常用的聚类算法进行了比较,并对基于 奇异值分解的文本聚类算法一Lingo作了详细分析。修改了Nutch的体系结构以实 现搜索结果的聚类。最后以我校内网作为爬行目标,给出了实验结果及其评价。 关键词:搜索引擎,特征词提取,文本聚类,Lucene,Nutch Ⅱ Abstract Abstract withthe ofinformationon to Along growth Web.It’s toobtainbuthard rapid easy usefulinformation.Searchsome the of get engine,indegree,acceleratespeed in


  本文关键词:搜索引擎设计分析与结果聚类改进,由笔耕文化传播整理发布。



本文编号:116333

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/116333.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4e6b8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com