当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于自然语言理解的中文搜索引擎

发布时间:2016-06-09 09:02

  本文关键词:基于自然语言理解的中文搜索引擎,由笔耕文化传播整理发布。


《河北科技大学》 2011年

基于自然语言理解的中文搜索引擎

刘海涛  

【摘要】:进入21世纪,“信息爆炸”时代已经到来。海量信息的产生和存储一方面丰富了网络资源给人们的生活带来了极大的便利;另一方面,信息的过滤、筛选成为了人们合理利用信息的重要方面。搜索引擎就是一种帮助人们在浩瀚的网络资源中寻找所需信息的工具。本文对中文搜索引擎的设计和开发进行了深入研究,并以高等艺术教育网站作为平台实现了支持中文自然语言理解的搜索引擎。 为了用户方便的使用搜索引擎寻找互联网上的信息,搜索引擎的使用方法应当更加人性化,并可以为不同领域的非计算机专业人员提供便利。人们越来越希望可以使用人类所掌握、熟悉的自然语言操控计算机程序。带有自然语言理解的搜索引擎自然成为了一个重要的研究方向。本文所研究目的就是使得搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。 本文使用Lucene作为研究平台,在此基础上开发出带有自然语言理解的高等艺术教育网站的搜索引擎。中文文本的特点是没有空格作为词汇与词汇之间的间隔,因此本文采用了词库匹配的方法对自然语言文本进新了分词。在词典的设计上,我们采用了以首字为键的散列表结构。在进行查询结果的排序时,将用户输入的文本和现有的文本都映射成一个n维的向量,然后在两个向量之间定义了相似性的度量方法,并按照该方法对搜索引擎的返回结果进行排序。在实现时,网站的整体架构使用Java语言平台,但是其中也有一些功能模块以C++语言编写的DLL形式实现。因此还对Java平台调用DLL的方式方法进行了研究。 最后,我们对该搜索引擎的性能进行了实验性的验证,最终的试验结果表明该设计思路是可行的,实际应用是有效的,它有效地提高了搜索引擎检索出的信息的质量以及显著增强了搜索引擎的交互能力。

【关键词】:
【学位授予单位】:河北科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要4-5
  • Abstract5-8
  • 第1章 绪论8-13
  • 1.1 课题研究的背景及意义8-9
  • 1.1.1 课题研究的背景8-9
  • 1.1.2 课题研究的意义9
  • 1.2 搜索引擎研究现状分析9-11
  • 1.2.1 搜索引擎的发展历史9-10
  • 1.2.2 搜索引擎的基本分类10-11
  • 1.3 本文主要研究内容11-12
  • 1.4 论文结构安排12-13
  • 第2章 搜索引擎技术研究13-20
  • 2.1 全文搜索引擎13-14
  • 2.2 Lucene 的内部架构14-15
  • 2.3 Lucene 信息流解析15-16
  • 2.4 Lucene 文件索引16-18
  • 2.4.1 Lucene 中的数据类型16
  • 2.4.2 Lucene 索引文件组织结构16-18
  • 2.5 文件搜索模型18-19
  • 2.5.1 布尔模型18-19
  • 2.5.2 扩展的布尔模型19
  • 2.5.3 概率模型19
  • 2.5.4 向量空间模型19
  • 2.6 本章小结19-20
  • 第3章 自然语言理解研究20-26
  • 3.1 自然语言理解简介20-21
  • 3.2 基于自然语言理解的搜索引擎21-24
  • 3.2.1 自然语言理解查询22-23
  • 3.2.2 自然语言理解的流程23-24
  • 3.3 智能化查询的交互24-25
  • 3.4 本章小结25-26
  • 第4章 基于自然语言处理的搜索引擎模型的实现及其相关技术26-47
  • 4.1 高等艺术教育网站的设计与实现26-31
  • 4.1.1 高等艺术教育网站总体设计26-27
  • 4.1.2 高等艺术教育网站详细设计27-31
  • 4.2 Lucene 的内置搜索模块31-36
  • 4.2.1 Lucene 词汇分析器32-35
  • 4.2.2 Lucene 的中文词汇分析器35-36
  • 4.3 Lucene 的中文搜索引擎实现36-40
  • 4.3.1 Lucene 中文分词方法36-37
  • 4.3.2 高等艺术教育网站的分词词典设计37-38
  • 4.3.3 中文分词器的具体实现38-40
  • 4.4 自动完成模块的实现40-43
  • 4.5 在Java 中调用DLL43-46
  • 4.6 本章小结46-47
  • 第5章 高等艺术教育网站的应用性能评估47-55
  • 5.1 网站功能简介47
  • 5.2 功能模块介绍47-49
  • 5.3 高等艺术教育网站使用性测试49-53
  • 5.3.1 用户满意度调查50-52
  • 5.3.2 搜索引擎性能测试52-53
  • 5.4 现有不足和今后的改进53-55
  • 结论55-56
  • 参考文献56-59
  • 攻读硕士学位期间所发表的论文59-60
  • 致谢60-61
  • 个人简历61
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 ;中文搜索引擎浅析[J];网络与信息;1999年08期

    2 刘立新;;搜索引擎——互联网前进的动力引擎[J];互联网天地;2004年10期

    3 ;中文搜索引擎的比较研究[J];软件世界;2000年10期

    4 ;每周e人[J];每周电脑报;2000年21期

    5 吴凤玉,柳家英;中文搜索引擎检索语言研究[J];津图学刊;2002年03期

    6 王立群;;搜索比武论输赢[J];IT时代周刊;2003年18期

    7 王来俭;;网站推荐之狂搜网[J];电脑知识与技术(学术交流);2006年31期

    8 ;2005年搜索引擎发展及未来展望[J];计算机与网络;2006年02期

    9 林军;;中文搜索的江湖水很深[J];IT时代周刊;2009年14期

    10 刘菲菲;;谁比谷歌更好用? 五大中文搜索引擎横评[J];网络与信息;2010年05期

    中国重要会议论文全文数据库 前10条

    1 苗传江;;HNC理论的句类[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

    2 康海燕;樊孝忠;马礼;;自然语言理解的检索技术在数字图书馆中的应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

    3 郭晨;;汉语语音技术[A];第一届学生计算语言学研讨会论文集[C];2002年

    4 陈晓红;何晓洁;李一智;;自然语言理解在智能决策支持系统人机接口中的应用[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年

    5 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年

    6 车万翔;刘挺;李生;;语义角色标注的方法与挑战[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

    7 车万翔;刘挺;李生;;自动浅层语义分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

    8 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

    9 乐明;冯志伟;;篇章修辞结构树库概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

    10 ;HNC(概念层次网络)理论[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年

    中国重要报纸全文数据库 前10条

    1 上海 朱玉;[N];电子报;2001年

    2 网易公司联合首席技术执行官 许良杰;[N];国际金融报;2000年

    3 雨田;[N];通信产业报;2000年

    4 记者 孙进;[N];第一财经日报;2010年

    5 李斌;[N];福建日报;2000年

    6 孙爽 清华大学经济外交研究中心;[N];中国社会科学报;2010年

    7 ;[N];广州日报;2003年

    8 张晓莺;[N];江苏科技报;2009年

    9 北京 朱艳;[N];中国电脑教育报;2000年

    10 本报记者 李延生;[N];中国企业报;2001年

    中国博士学位论文全文数据库 前10条

    1 刘根辉;计算语用学基础理论及其应用研究[D];华中科技大学;2005年

    2 张蕾;概念结构及其应用[D];西北工业大学;2001年

    3 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年

    4 杨芸;汉语隐喻识别与解释计算模型研究[D];厦门大学;2008年

    5 许中卫;基于双向搜索的ILP算法构建汉语语义自动切分系统[D];安徽大学;2006年

    6 朱宏辉;基于知识驱动的拟人智能控制系统若干关键技术研究[D];武汉理工大学;2006年

    7 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年

    8 段鹰;复杂生产系统决策若干关键技术研究[D];重庆大学;2009年

    9 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年

    10 王朝霞;专利知识获取及其支持概念创新设计的方法研究[D];浙江大学;2009年

    中国硕士学位论文全文数据库 前10条

    1 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年

    2 蔡霞;基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D];浙江工业大学;2003年

    3 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年

    4 王会彩;面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用[D];西安电子科技大学;2010年

    5 焦海涛;机械设计领域自然语言理解知识库构建研究[D];西安电子科技大学;2004年

    6 杨俊梅;产品设计中含有特殊动词复合句的自然语言理解的研究与实现[D];西安电子科技大学;2005年

    7 李海林;自然语言理解及其在机务信息规范化中的应用[D];南京航空航天大学;2004年

    8 亿珍珍;面向产品设计的自然语言理解语义分析研究[D];西安电子科技大学;2004年

    9 赵亮;自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年

    10 胡树楷;机械产品设计中的自然语言理解复合句语义分析[D];西安电子科技大学;2005年


      本文关键词:基于自然语言理解的中文搜索引擎,由笔耕文化传播整理发布。



    本文编号:55136

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/55136.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户1331e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com