当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于垂直搜索引擎的文本挖掘系统研究与实现

发布时间:2017-04-10 10:03

  本文关键词:基于垂直搜索引擎的文本挖掘系统研究与实现,由笔耕文化传播整理发布。


【摘要】:通用搜索引擎能够为人们提供针对海量信息的检索服务,搜索结果“广而全”,但是对于特定领域的搜索,通用搜索引擎往往不能满足人们“精而深”的检索需求。于是出现了越来越多的针对各个领域的垂直搜索引擎,满足人们对于特定领域的信息检索需求。而随着互联网技术的不断发展和普及,网络上的文本信息资源急剧增长,如何对这些网页中的信息进行文本挖掘就显得尤为重要。因此,针对特定领域的文本进行挖掘及相关的分析处理具有重要的意义。 本文主要是围绕垂直搜索引擎技术展开研究,运用文本挖掘算法,将文本聚类技术应用到实际的系统中,主要工作包括以下内容: (1)提出了一种基于Heritrix、Lucene和WebKit的垂直搜索引擎,实现了对特定领域的信息采集、预处理、索引和检索。在网络爬虫的关键技术方面,利用WebKit来解析动态网页,获取网页中的结构化信息。 (2)介绍了用于文本挖掘的各种聚类算法,并在分析和研究的基础上,提出了一种改进的single-pass聚类算法,该方法结合了层次聚类的思想,先形成初步类后,再由single-pass算法完成聚类;并对改进后的算法进行了实验分析,实验结果显示,改进后的single-pass聚类算法,查准率提高了10%,查全率提高了12%,Fl-measure提高了11%。 (3)详细介绍了基于垂直搜索引擎的文本挖掘系统的设计与实现。在系统设计方面,主要由文本信息采集模块、文本信息预处理模块、文本信息挖掘模块和文本信息服务模块四个部分组成。在系统实现方面,给出了系统的整体部署图和各模块详细的实现过程,并给出了系统运行的效果图,实现了对手机评论信息的文本挖掘和手机评测信息的垂直搜索服务。
【关键词】:垂直搜索引擎 文本挖掘 Lucene Heritrix Single-pass算法
【学位授予单位】:首都师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-7
  • 目录7-9
  • 图目录9-10
  • 表目录10-11
  • 第一章 绪论11-17
  • 1.1 研究背景与意义11-12
  • 1.2 国内外研究现状分析12-15
  • 1.2.1 垂直搜索引擎相关研究分析12-14
  • 1.2.2 文本挖掘相关研究分析14-15
  • 1.3 论文的组织结构15-17
  • 第二章 垂直搜索引擎技术剖析17-29
  • 2.1 通用搜索引擎17-20
  • 2.1.1 网络爬虫18-20
  • 2.1.2 索引器20
  • 2.1.3 检索器20
  • 2.2 Heritrix和Lucene概述20-25
  • 2.2.1 基于Heritrix的垂直网络爬虫20-21
  • 2.2.2 基于Lucene的索引器和搜索器21-24
  • 2.2.3 在Lucene中使用ICTCLAS24-25
  • 2.3 垂直搜索引擎25-27
  • 2.3.1 垂直搜索引擎与通用搜索引擎的区别25-26
  • 2.3.2 垂直搜索引擎中网络爬虫的关键技术26-27
  • 2.4 本章小结27-29
  • 第三章 文本挖掘相关技术29-43
  • 3.1 中文文本表示技术29-31
  • 3.1.1 文本特征表示29-30
  • 3.1.2 特征提取30-31
  • 3.2 文本聚类31-37
  • 3.2.1 基于层次的聚类算法32
  • 3.2.2 基于划分的聚类算法32-34
  • 3.2.3 基于密度的聚类算法34
  • 3.2.4 基于网格的聚类算法34-35
  • 3.2.5 经典的single-pass聚类算法35-36
  • 3.2.6 对各种聚类算法的比较与总结36-37
  • 3.3 对经典single-pass算法改进37-38
  • 3.4 文本聚类结果分析38-39
  • 3.5 实验结果与分析39-42
  • 3.5.1 聚类结果39-41
  • 3.5.2 热点评分与类标题生成41-42
  • 3.6 本章小结42-43
  • 第四章 基于垂直搜索引擎的文本挖掘系统设计43-55
  • 4.1 系统总体设计43-45
  • 4.1.1 功能需求43
  • 4.1.2 模块组成43-45
  • 4.2 文本信息采集模块的详细设计45-47
  • 4.2.1 配置文件读取模块45-46
  • 4.2.2 网络爬虫模块46-47
  • 4.3 文本信息预处理模块的详细设计47-49
  • 4.3.1 网页信息结构化模块47-48
  • 4.3.2 中文分词模块48-49
  • 4.4 文本信息挖掘模块的详细设计49-51
  • 4.4.1 聚类分析模块49-50
  • 4.4.2 热点评分模块50-51
  • 4.5 文本信息服务模块的详细设计51-53
  • 4.5.1 垂直搜索引擎模块52
  • 4.5.2 文本信息展示模块52-53
  • 4.6 本章小结53-55
  • 第五章 基于垂直搜索引擎的文本挖掘系统实现55-65
  • 5.1 开发环境及系统部署55-57
  • 5.2 文本信息采集模块的实现57-58
  • 5.3 文本信息预处理模块的实现58-60
  • 5.4 文本信息挖掘模块的实现60-62
  • 5.5 文本信息服务模块的实现62-63
  • 5.6 本章小结63-65
  • 第六章 总结与展望65-67
  • 6.1 论文总结65
  • 6.2 研究展望65-67
  • 参考文献67-70
  • 致谢70-71
  • 攻读硕士学位期间主要的研究成果71

【参考文献】

中国期刊全文数据库 前6条

1 董素芬;蔡金金;赵全东;;基于本体的农业检索系统研究[J];河北农业大学学报;2010年05期

2 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期

3 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

4 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期

5 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期

6 王旭仁;郑秋辉;何发镁;李娜;王彦丽;;基于Tika和Lucene的桌面搜索引擎研究与实现[J];计算机工程与设计;2014年01期

中国博士学位论文全文数据库 前3条

1 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年

2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

3 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年


  本文关键词:基于垂直搜索引擎的文本挖掘系统研究与实现,,由笔耕文化传播整理发布。



本文编号:296444

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/296444.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7d95e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com