当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎中分词和排序技术的研究与应用

发布时间:2016-07-10 10:08

  本文关键词:垂直搜索引擎中分词和排序技术的研究与应用,由笔耕文化传播整理发布。


《西南交通大学》 2014年

垂直搜索引擎中分词和排序技术的研究与应用

张莉  

【摘要】:计算机与网络信息技术的快速发展,促使当今社会进入了网络信息时代,各个领域的数据和信息急剧增多,海量数据丰富了人们的生活,同时也增加了用户对信息的筛选时间。如何从这些杂乱无章的庞大数据和强干扰的信息中搜索出有利用价值的信息,这对人类的智能信息处理能力提出了空前的挑战。在某些专业领域,通用搜索引擎的信息查全率和查准率都在不断下降,而用户对获取更加精准和详细的专业信息的需求却在不断增长。 面对这些挑战,诞生了针对特定领域和个性化信息检索的垂直搜索引擎。基于Lucene的垂直搜索引擎己经成为当今搜索引擎和Web信息挖掘中的一个研究热点和难点,本文的研究就是以这一热点和难点技术而展开的,主要工作如下: 第一,对垂直搜索引擎的相关研究进展和现状进行了分析,介绍了垂直搜索引擎的组成并细述了其工作原理;概述了全文检索引擎Lucene的相关技术,包括Lucene框架构成、索引技术和搜索机制等,并对Lucene索引和数据库索引进行了比较。 第二,针对通用分词系统对领域分词的效果不理想这一问题,研究了垂直搜索引擎的中文分词算法;分析图书领域词汇的特点,提出了一种带词长的双字哈希词典机制,并在此机制的基础上改进了正向最大匹配分词算法; 第三,针对Lucene中排序技术只关注网页内容而忽视网页本身的重要性这一问题,研究了基于链接的网页排序算法;在考虑图书数据特点和网页的重要性的基础上,改进了基于PageRank的Lucene排序算法。 第四,在分词和排序改进的基础上,设计和实现一个面向图书信息的垂直搜索引擎系统,实现的功能主要包括网页的爬取,网页信息抽取,索引的建立和查询界面等;并通过对比验证了改进分词和排序后的查询效果。 最后,总结了本论文的主要内容,指出本系统存在的问题,以及对未来的展望。

【关键词】:
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期

2 许华;刘勇;;中文分词词典机制的研究[J];福建电脑;2010年03期

3 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期

4 王琼;搜索引擎的四大发展趋势[J];农业网络信息;2005年03期

5 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期

6 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期

7 罗浩;魏祖宽;金在弘;;面向GIS基于专有名词优先的中文分词方法[J];计算机应用;2010年07期

8 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期

9 李绍华;高文宇;;搜索引擎页面排序算法研究综述[J];计算机应用研究;2007年06期

10 杨克特;陈华钧;;面向特定领域的语义搜索结果排序算法[J];计算机应用与软件;2011年12期

中国博士学位论文全文数据库 前1条

1 史斌;面向语义网的语义搜索引擎关键技术研究[D];北京工业大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期

2 闫淑红;;基于搜索引擎的信息查询技术研究[J];办公自动化;2011年06期

3 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期

4 何友全;徐小乐;徐澄;栾红玉;唐华姣;;搜索引擎用户接口设计[J];重庆理工大学学报(自然科学版);2010年09期

5 汪洋;;学术搜索引擎的现状及发展趋势[J];重庆工学院学报(社会科学版);2008年10期

6 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期

7 闫淑红;;基于搜索引擎的信息查询技术研究[J];电脑开发与应用;2011年07期

8 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期

9 郭屹;;对中文自动分词机制的研究和改进[J];电脑知识与技术;2008年07期

10 蒋明亮;李志清;;网站内容检索系统的设计[J];电脑知识与技术;2009年05期

中国重要会议论文全文数据库 前4条

1 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

2 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年

3 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

中国博士学位论文全文数据库 前10条

1 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年

2 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年

3 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年

4 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年

5 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年

6 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

7 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年

8 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年

9 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年

10 钱海忠;语义万维网服务若干关键技术的研究[D];南京邮电大学;2013年

中国硕士学位论文全文数据库 前10条

1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年

3 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年

4 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年

5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年

6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年

7 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年

8 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年

9 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年

10 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期

3 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期

4 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期

5 李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期

6 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

7 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期

8 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期

9 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期

10 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

中国博士学位论文全文数据库 前3条

1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年

3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

中国硕士学位论文全文数据库 前6条

1 史鹏辉;专业服务网站搜索引擎的设计与实现[D];大连理工大学;2004年

2 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年

3 黄大鹏;基于语义Web的搜索引擎研究[D];西安理工大学;2004年

4 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

5 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年

6 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年

【相似文献】

中国期刊全文数据库 前10条

1 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

2 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

3 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

4 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

5 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

7 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期

9 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

10 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期

中国重要会议论文全文数据库 前3条

1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

中国重要报纸全文数据库 前10条

1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

2 王艳;[N];中国旅游报;2000年

3 赛迪网 方刚;[N];中国计算机报;2000年

4 王靖;[N];人民日报海外版;2000年

5 记者 王浒;[N];中国旅游报;2009年

6 本报记者 王宏;[N];中国计算机报;2001年

7 徐瑾 张玉;[N];人民邮电;2009年

8 本报记者 王晓雁;[N];法制日报;2009年

9 记者 吴德群;[N];深圳特区报;2009年

10 本报记者 胡钰;[N];华夏时报;2009年

中国博士学位论文全文数据库 前5条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年

5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

中国硕士学位论文全文数据库 前10条

1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年

3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年

4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年

6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年

10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年


  本文关键词:垂直搜索引擎中分词和排序技术的研究与应用,,由笔耕文化传播整理发布。



本文编号:68403

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/68403.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5a5c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com