当前位置:主页 > 科技论文 > 搜索引擎论文 >

文本挖掘的研究及其在主题搜索引擎中的应用

发布时间:2016-11-15 08:10

  本文关键词:文本挖掘的研究及其在主题搜索引擎中的应用,由笔耕文化传播整理发布。


《北京邮电大学》 2012年

文本挖掘的研究及其在主题搜索引擎中的应用

孙露乔  

【摘要】:文本挖掘,对文本数据进行有价值的信息挖掘的过程。随着网络技术的飞速发展,互联网已成为主要的信息载体。人们已经逐渐习惯通过搜索引擎获取主题相关的页面信息。但用户不可能逐一浏览所有搜索引擎反馈的搜索结果页面,需要先浏览网页的基本概要信息。这样,搜索引擎就需要文本挖掘技术对网页进行信息的抽取。因此,WEB文本挖掘日渐成为文本挖掘的研究热点,也是搜索引擎不可或缺的功能。 本文对文本挖掘的研究主要包括三个方面:利用文档对象模型抽取WEB页面中的文本信息,将WEB文本挖掘转化为传统的文本挖掘;研究并实现了文本分类系统,验证了多种特征选择方案,提出了利用互信息进行特征选择的改进办法;研究并实现了文本聚类过程,使用自然语言处理技术进行文本聚类的特征选择,并得到了有效验证。 然后,本文分析了主题搜索引擎的文本挖掘特殊需求,针对一个主题招标系统,综合运用信息抽取技术、文本分类技术、文本聚类技术,设计并实现了主题搜索引擎的文本挖掘模块。该模块能够对来自七十多个网站的不同页面进行信息挖掘。 本文研究、设计与实现的各项技术均有实际的应用意义。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前9条

1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

2 吴鹏飞;;基于WVTool的文本向量空间模型研究与实现[J];电脑编程技巧与维护;2012年05期

3 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期

4 姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期

5 徐泉清,朱玉文,李亮,刘万春;一种结合粗糙集和Cobweb的聚类器[J];计算机应用;2005年06期

6 吴恒亮;;基于本体和DOM树的Web信息抽取技术研究[J];情报科学;2010年07期

7 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期

8 赵国富;曲国庆;;聚类分析中CLARA算法的分析与实现[J];山东理工大学学报(自然科学版);2006年02期

9 戴晓燕,过仲阳,李勤奋,吴健平;空间聚类的研究现状及其应用[J];上海地质;2003年04期

【共引文献】

中国期刊全文数据库 前10条

1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期

2 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期

3 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期

4 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期

5 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期

6 李晓宁;李晓峰;;空间聚类在精准施肥中应用的研究[J];长春师范学院学报(人文社会科学版);2008年10期

7 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期

8 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期

9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期

10 李鑫;单维峰;丰继林;李军;高方平;李忠;;一种基于聚类的异常检测方法[J];传感器与微系统;2011年01期

中国重要会议论文全文数据库 前10条

1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年

2 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

3 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年

4 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年

5 孙浩军;孔令俊;刘志辉;;利用高斯分布生成数据对聚类算法的比较[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年

6 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年

7 余灿玲;王丽珍;张元武;;基于网格密度方向的聚类簇边缘精度加强算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

8 刘尊洋;汪作来;王自荣;余大斌;孙晓泉;;基于谱系法改进FCM的仿造迷彩主色提取方法[A];第九届全国光电技术学术交流会论文集(上册)[C];2010年

9 池晶晶;黄坚;杜博文;;基于VSP分布的北京道路划分[A];第七届中国智能交通年会优秀论文集——智能交通技术[C];2012年

10 李晋宏;徐洁;唐存雨;;聚类算法在试题存储中的应用研究[A];全国冶金自动化信息网2013年会论文集[C];2013年

中国博士学位论文全文数据库 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年

3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年

4 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年

5 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年

6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年

7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年

8 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年

9 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年

10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

中国硕士学位论文全文数据库 前10条

1 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年

2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年

3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年

4 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年

5 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年

6 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年

7 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年

8 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年

9 邵帅;基于数据场的聚类可视化算法研究与应用[D];西北民族大学;2010年

10 孙大朋;入侵检测中模糊C-均值聚类算法研究[D];哈尔滨理工大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 赵蔚;刘秀琴;邱百爽;;语义网自适应学习系统中领域本体的构建[J];吉林大学学报(信息科学版);2008年05期

2 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期

3 李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期

4 宋爱国,陆佶人;基于进化规划的Kohonen网络用于被动声呐目标聚类研究[J];电子学报;1998年07期

5 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期

6 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期

7 张艳宁,赵荣椿,梁怡;一种有效的大规模数据的分类方法[J];电子学报;2002年10期

8 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期

9 刘健庄,,谢维信,黄建军,李文化;聚类分析的遗传算法方法[J];电子学报;1995年11期

10 高新波,裴继红,谢维信;基于统计检验指导的聚类分析方法[J];电子科学学刊;2000年01期

中国重要会议论文全文数据库 前1条

1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

【相似文献】

中国期刊全文数据库 前10条

1 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期

2 刘苗苗;张永生;;文本分类技术在搜索引擎中的应用[J];中国新技术新产品;2010年04期

3 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期

4 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期

5 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期

6 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期

7 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期

8 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期

9 余燕芳;;基于改进遗传算法的Web文本挖掘系统[J];微电子学与计算机;2010年04期

10 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期

中国重要会议论文全文数据库 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

中国重要报纸全文数据库 前10条

1 李一鑫;[N];财经时报;2007年

2 周文林;[N];经济参考报;2007年

3 惠正一;[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年

5 陈珊;[N];人民邮电;2005年

6 赵法忠;[N];中国经营报;2005年

7 金朝力;[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;[N];中国证券报;2006年

9 孙琎;[N];第一财经日报;2006年

10 姜蕊;[N];中国高新技术产业导报;2006年

中国博士学位论文全文数据库 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年

8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年

中国硕士学位论文全文数据库 前10条

1 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年

2 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年

3 李凯;Web挖掘在教学资源搜索引擎中的应用研究[D];东北师范大学;2007年

4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年

5 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年

6 曾砺锋;基于数字有机体数据库的搜索引擎的理论研究与实现[D];电子科技大学;2008年

7 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

8 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

9 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

10 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年


  本文关键词:文本挖掘的研究及其在主题搜索引擎中的应用,由笔耕文化传播整理发布。



本文编号:175428

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/175428.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4be80***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com