当前位置:主页 > 科技论文 > 搜索引擎论文 >

聚类算法及在搜索引擎系统中的应用

发布时间:2017-08-25 16:00

  本文关键词:聚类算法及在搜索引擎系统中的应用


  更多相关文章: 搜索引擎 聚类引擎 聚类算法 可视化


【摘要】:搜索引擎作为海量信息的融合平台将万千世界带到人们的周围,使得大量信息都触手可得,与此同时也悄悄改变着人们的生活。搜索引擎分为全文索引、目录索引和元搜索引擎,而且其内部形式一直没有太大的变化。针对以上传统搜索引擎类型可读性差的状况,聚类引擎应运而生。聚类引擎是在搜索引擎中使用聚类技术,运用聚类算法对搜索结果进行自动聚类分析。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,又可以汇集各大知名搜索引擎的信息资源。 本文针对聚类引擎进行了研究,用几种聚类算法对搜索引擎的搜索结果进行聚类处理,并返回聚类结果,最后对比这几种聚类算法效果,实验中借助Carrot2平台进行分析总结。 具体完成的工作有如下几个部分: 1.利用开源搜索引擎框架Nutch,搭建搜索引擎平台,并完成分词、分页等基本功能,为聚类引擎提供实验基础数据。 2.将当前主流的K-Means聚类算法、STC聚类算法和Lingo聚类算法写入Nutch搜索引擎,形成相应算法下的聚类引擎,并逐一分析聚类结果效果。分析内容包括各个算法下生成的类目标签和对大小数据集的处理情况等。 3.针对Lingo阈值的固定性,结合K-means算法距离提取的思想和Lingo算法对不同密度数据集可动态调节阈值的思想,将Lingo算法进行优化,,在保证算法复杂度的情况下对不同数据密度的原数据返回更精确的聚类结果。 4.利用Carrot2聚类可视化和F-measure聚类评测平台对本文中所有测试过程进行跟踪实验,更好的说明以上三种算法的聚类效果,以及优化后的Lingo算法的可靠性和有效性。
【关键词】:搜索引擎 聚类引擎 聚类算法 可视化
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-15
  • 1.1 课题研究的背景、目的和意义10-12
  • 1.1.1 搜索引擎研究的背景10-11
  • 1.1.2 聚类算法研究的目的及意义11-12
  • 1.2 国内外研究现状12-14
  • 1.3 课题来源14
  • 1.4 本论文主要研究内容14-15
  • 第2章 信息检索与数据挖掘基础知识15-22
  • 2.1 搜索引擎工作流程15-18
  • 2.1.1 基础数据的解析与获取15-16
  • 2.1.2 数据索引的建立16-18
  • 2.2 Nutch 简介18-20
  • 2.2.1 Crawl 爬虫工作流程19
  • 2.2.2 Index 索引的建立19-20
  • 2.2.3 Nutch 插件机制20
  • 2.3 本章小结20-22
  • 第3章 聚类引擎系统流程与聚类算法模型22-41
  • 3.1 总体概要22-23
  • 3.2 系统分析23-26
  • 3.2.1 系统定位23
  • 3.2.2 系统结构23
  • 3.2.3 系统用例模型23-26
  • 3.3 聚类算法模型26-37
  • 3.3.1 VSM 向量空间模型28-29
  • 3.3.2 K-means 聚类算法29-32
  • 3.3.3 STC 聚类算法32-35
  • 3.3.4 Lingo 聚类算法35-37
  • 3.4 不同聚类模型的比较分析37-40
  • 3.5 本章小结40-41
  • 第4章 基于聚类引擎的 Lingo 阈值优化及结果分析41-49
  • 4.1 Lingo 阈值41-42
  • 4.2 基于搜索引擎的阈值优化42-44
  • 4.3 优化结果可视化实验44-48
  • 4.4 实验结果分析48
  • 4.5 本章小结48-49
  • 结论49-50
  • 参考文献50-54
  • 致谢54

【引证文献】

中国期刊全文数据库 前1条

1 刘佳;宋之杰;;基于文本聚类的稀土萃取技术专利信息分析[J];燕山大学学报;2014年03期



本文编号:737331

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/737331.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aab71***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com