当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎中的分词算法研究

发布时间:2017-07-31 23:09

  本文关键词:垂直搜索引擎中的分词算法研究


  更多相关文章: 垂直搜索引擎 分词算法 检索效率


【摘要】:垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下垂直搜索引擎中的分词技术。在本文中,首先介绍了现有的中文分词算法并分析了其缺点,在此基础上构建了一种改进的分词算法。最后,本文通过实验证明了该改进算法的有效性。
【作者单位】: 上海市东华大学信息科学与技术学院;
【关键词】垂直搜索引擎 分词算法 检索效率
【分类号】:TP391.3
【正文快照】: 0引言近年来,爆炸式增长的信息和不断发展的互联网技术,使得WEB的信息量急剧增长,格式以及内容不断翻新,而通用搜索引擎由于存储、计算资源和带宽等方面的问题想要检索互联网上全部的网页是不可能的[1]。从海量的信息中准确快速地搜索出特定的内容十分困难,如何从网络中的海量

【相似文献】

中国期刊全文数据库 前10条

1 张辉丽;孟昭鹏;王慧芝;;汉语自动分词中的歧义处理[J];微计算机应用;2006年06期

2 亢临生,,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期

3 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期

4 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期

5 盛启东;谭守标;徐超;冯二媛;陈军宁;;巧用黑盒法逆推百度中文分词算法[J];计算机技术与发展;2010年04期

6 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期

7 赵亚慧;;基于编辑距离的中文机构名简称检索方法研究[J];内蒙古科技与经济;2010年07期

8 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期

9 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期

10 吴振南;熊皓;徐爱萍;;GIS中文查询语句的未登录词识别算法研究[J];计算机工程与科学;2007年11期

中国重要会议论文全文数据库 前10条

1 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

3 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

4 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年

5 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年

6 孙亚夫;陈文斌;;基于分词的地址匹配技术[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年

7 姜尚仆;陈群秀;;基于规则和统计的日语分词和词性标注的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

10 孙茂松;;分词国际标准中的核心概念体系[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

中国博士学位论文全文数据库 前2条

1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年

2 田学东;光学公式识别技术研究[D];河北大学;2007年

中国硕士学位论文全文数据库 前10条

1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年

2 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年

3 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年

4 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年

5 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年

6 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年

7 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年

8 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年

9 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年

10 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年



本文编号:601505

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/601505.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c41d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com