当前位置:主页 > 科技论文 > 搜索引擎论文 >

Hadoop云平台下Nutch中文分词的研究与实现

发布时间:2017-06-14 21:10

  本文关键词:Hadoop云平台下Nutch中文分词的研究与实现,由笔耕文化传播整理发布。


【摘要】:Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义.
【作者单位】: 东北大学软件学院;东北大学信息科学与工程学院;
【关键词】Nutch Hadoop 中文分词 云计算
【基金】:辽宁省自然科学基金项目(201202076)资助
【分类号】:TP391.1
【正文快照】: 1引言随着计算机与互联网的普及与应用,人们早已经进入了信息化时代,我们使用计算机来完成我们需要做的很多事情,获取我们需要的有用信息.由于信息数据的海量增长,微博和电子商务的普及,如何从海量的信息中提取有效的信息逐渐引起了人们的关注.国内外众多学者都在中文分词领域

【参考文献】

中国期刊全文数据库 前5条

1 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期

2 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期

3 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期

4 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期

5 赵彦荣;王伟平;孟丹;张书彬;李均;;基于Hadoop的高效连接查询处理算法CHMJ[J];软件学报;2012年08期

【共引文献】

中国期刊全文数据库 前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期

3 章坚民;张自聪;郭峰;谷炜;占震滨;楼坚;王云;;调度大屏输电网潮流图自动生成 (二)自动布线[J];电力系统自动化;2010年01期

4 刘韬;;设立切分标志法在中文地址自动分词中的改进与应用[J];电脑知识与技术;2009年11期

5 薛丽敏;赵俊阁;石尧明;;电子邮件安全拦截系统的设计与实现研究[J];电子工程师;2006年11期

6 冯永;贺迅;唐黎;陈显勇;陈贞;;面向文本知识管理的自适应中文分词算法[J];重庆大学学报;2010年10期

7 谢青峰;浅析高速缓冲存储器Cache在PC系统中的应用[J];福建电脑;2004年09期

8 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[J];合肥工业大学学报(自然科学版);2012年06期

9 阳爱民,孙星明,李长云,周序生;可定题的中文网络信息自动发现系统[J];计算机工程与应用;2002年08期

10 朱征宇,朱庆生,张宏森;基于内容模块化的网页快速浏览技术[J];计算机工程与应用;2002年10期

中国重要会议论文全文数据库 前2条

1 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 阳爱民;孙星明;李长云;;可定题的网络信息自动发现和查询系统的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

中国博士学位论文全文数据库 前8条

1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

2 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年

3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年

4 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年

5 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年

6 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年

7 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年

8 陆前;英、汉跨语言话题检测与跟踪技术研究[D];中央民族大学;2013年

中国硕士学位论文全文数据库 前10条

1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年

2 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年

3 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年

4 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年

5 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年

6 蒋才智;中文自动分词及人名识别技术研究[D];合肥工业大学;2011年

7 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年

8 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年

9 张晟恺;脉冲中子谱仪的实验数据框架[D];华中师范大学;2011年

10 孟飞燕;保温隔热材料热扩散率和热导率测试技术的研究[D];南京理工大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期

2 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

3 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期

4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期

5 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

6 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期

7 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期

8 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

9 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期

10 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期

【相似文献】

中国期刊全文数据库 前10条

1 蔡小艳;沈巍;胡婷婷;曹永刚;;Nutch中文分词插件的编写与实现[J];信息技术;2010年02期

2 张敏;;中文垂直搜索引擎研究与实现[J];福建电脑;2010年06期

3 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期

4 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期

5 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期

6 朱莹芳;;JAVA技术与人工智能在搜索引擎上的应用[J];硅谷;2009年24期

7 蔡小艳;寇应展;沈巍;郑伟;;汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现[J];军械工程学院学报;2008年05期

8 陈建锋;;Nutch的中文问题研究[J];现代计算机(专业版);2009年07期

9 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期

10 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期

中国重要会议论文全文数据库 前10条

1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年

6 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

7 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年

9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年

10 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

中国重要报纸全文数据库 前3条

1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年

2 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年

3 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年

中国博士学位论文全文数据库 前10条

1 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年

2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年

3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年

6 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

7 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年

8 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年

9 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年

10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

中国硕士学位论文全文数据库 前10条

1 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年

2 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年

3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年

4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年

5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年

6 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年

7 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年

8 谢照莉;基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现[D];湖南科技大学;2011年

9 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年

10 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年


  本文关键词:Hadoop云平台下Nutch中文分词的研究与实现,,由笔耕文化传播整理发布。



本文编号:450544

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/450544.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9daa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com