当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文信息检索中词典机制分词算法的研究

发布时间:2017-07-26 07:21

  本文关键词:中文信息检索中词典机制分词算法的研究


  更多相关文章: 信息检索 中文分词 数据结构 哈希


【摘要】:中文自动分词是实现搜索引擎信息检索的基础,分词词典是汉语自动分词系统的一个重要组成部分,词典的加载和查询速度直接影响到分词系统的速度。文中在研究传统词典机制的基础上,分析了基于双字哈希词典机制对词条除首次字外剩余词的不足,给出了一种改进的双字哈希的词典机制。最后,文中对改进算法从准确率、分全率和分词速度等方面进行了测试,结果表明,改进后的分词算法在不提升已有典型词典机制维护复杂度的情况下,提高了词条匹配的查询速度和效率。
【作者单位】: 江苏省邮电规划设计院有限公司;
【关键词】信息检索 中文分词 数据结构 哈希
【基金】:江苏省自然科学基金项目(BK2009425)
【分类号】:TP391.3
【正文快照】: 0引言信息检索是将信息按一定的方式组织和存储起来,并根据用户的信息需求查找所需信息的过程和技术。对中文文本信息检索来说,由于中文文本是按句连写的,每个句子中的词没有空格,需要用分词来处理[1]。因而在中文文本信息检索处理中,对歧义切分字段的处理能力,严重影响到中文

【参考文献】

中国期刊全文数据库 前5条

1 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期

2 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期

3 郑晓刚;韩立新;白书奎;曾晓勤;;一种组合型中文分词方法[J];计算机应用与软件;2012年07期

4 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

5 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期

【共引文献】

中国期刊全文数据库 前10条

1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期

2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期

3 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期

4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期

5 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期

6 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期

7 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期

8 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期

9 刘韬;;设立切分标志法在中文地址自动分词中的改进与应用[J];电脑知识与技术;2009年11期

10 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期

中国博士学位论文全文数据库 前10条

1 ;[D];;年

2 ;[D];;年

3 ;[D];;年

4 ;[D];;年

5 ;[D];;年

6 ;[D];;年

7 ;[D];;年

8 ;[D];;年

9 ;[D];;年

10 ;[D];;年

【二级参考文献】

中国期刊全文数据库 前10条

1 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期

2 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

3 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期

4 张彦,邵志清;具有概念联想功能的特定领域分词词典的自动构建[J];计算机工程;2004年20期

5 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期

6 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期

7 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

8 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期

9 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期

10 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

【相似文献】

中国期刊全文数据库 前10条

1 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期

2 宋国柱;陈俊杰;;基于双字词的动态最大匹配分词算法的研究[J];太原科技大学学报;2009年03期

3 吴亮;;一种改进的最大匹配分词算法研究[J];现代商贸工业;2010年09期

4 胡局新;鞠训光;;自学习分词算法在科研项目查重系统中的应用[J];科技通报;2013年06期

5 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期

6 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期

7 亢临生,张永奎;基于标记的分词算法[J];山西大学学报(自然科学版);1994年03期

8 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期

9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

10 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期

中国重要会议论文全文数据库 前5条

1 张秋亮;方凯;;基于中文分词算法的铁路客规查询系统研究[A];第八届中国智能交通年会论文集[C];2013年

2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年

3 才智杰;索南仁欠;;藏文分词算法研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

5 刘善峰;李雅;陶建华;;基于词位信息的HMM中文分词算法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

中国硕士学位论文全文数据库 前10条

1 孟旭升;改进的中文分词算法在自动答疑系统中的应用研究[D];大连交通大学;2008年

2 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年

3 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年

4 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年

5 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年

6 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年

7 贺艳艳;基于词表结构的中文分词算法研究[D];中国地质大学(北京);2007年

8 李腊腊;基于特殊标志符的中文分词算法研究[D];湖北工业大学;2010年

9 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年

10 彭璐;基于拼音标注的中文分词算法研究[D];华中科技大学;2010年



本文编号:575251

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/575251.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45b7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com