当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向垂直领域的中文检索系统的设计及实现

发布时间:2022-02-11 15:01
  通用型检索系统并不针对特定领域进行检索,可以满足内容没有特别限制的检索需求,其特点是内容广、信息量大但针对性不强,查询不够精确,内容深度不够。而面向垂直领域的检索系统是针对某一特定领域、特定人群或特定需求,从信息收集、索引构建到信息检索都有明确指向性,能满足用户对信息准确性及信息挖掘深度的需求。本文在限定领域内以倒排索引技术为依据,探讨了全文检索的索引构建原理及其相关技术,同时引入了中科院中文分词系统并制定了相应分词规则,联合全文检索引擎Solr实现了中文文献全文检索。在充分分析用户需求基础上,对爬取信息进行系列预处理后,分别完成了数据库及相关接口的设计,创建了一个面向特定领域的专题数据库及全文检索系统,为垂直领域的检索提供了解决方案,具有较高的实用价值。 

【文章来源】:武汉工程大学湖北省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

面向垂直领域的中文检索系统的设计及实现


建立索引过程图

过程图,数据,过程,中文分词


图 2.2 数据分词过程2. 中文分词由于中英文的不同,分词器还分为英文分词、中文分词以及停用词等。英文分词的主要流程是,输入文本 → 关键词切分 → 去除停用词 → 形态还原并转为小写。其中,形态还原是去除单词词尾的形态变化,将其还原为词的原型,例如,worked → work,studies → study。中文分词相对于其他的语言分词而言比较复杂,因为一个词并非简单的字组成,在所处位置不同,就可能产生不同的理解和意义。例如在“鞋子和服装”里面的“和服”就非一个词。如果是中文,对其分类通有三种,分别是单字分词、二分法分词、词典分词[10]。文本中经常会出现很多相同的词,而且这些词的含义往往都是不太重要的,比如英文的“the,of,in”,中文的“的,了”,还有标点

框架图,倒排索引,框架,步骤


其中单词词典内记载着单词信息和倒排列表的指针信息。倒排列表:倒排列表主要记录的是包含单词的所有文档及其在文档里面的位置,一条记录即为一个倒排项(Posting)。通过倒排列表可知文档含有具体单词信息。倒排文件:全部单词的倒排列表通常按照一定的顺序保存在磁盘的文件里面,也就是倒排文件。它是一种存储倒排索引的物理文件。搜索引擎中倒排索引大概流程框架[12]:用户在搜索引擎搜索框输入查询词进行搜索时,搜索引擎会对查询词进行切词以及近义词匹配等操作,根据原始查询词得到一系列的单词列表。然后根据搜索引擎内部的字典来查询每个单词对应的倒排列表,以寻找内容中存在该单词的网页或文档。最后搜索引擎根据特定的网页排序算法将查询到的网页进行排序,继而将搜索结果展示给用户。图 2.4 为倒排索引的主要流程框架。

【参考文献】:
期刊论文
[1]基于领域本体知识库的语义检索研究[J]. 杨清琳,钱文标,杨晓雷.  山东工业技术. 2018(04)
[2]基于深度学习的自动文摘句排序方法[J]. 何凯霖,丁晓峰.  计算机工程与设计. 2017(12)
[3]基于聚类与语义相似分析的多文本自动摘要方法[J]. 杜秀英.  情报杂志. 2017(06)
[4]搜索引擎分块索引技术研究[J]. 田海龙,缪新颖.  电脑编程技巧与维护. 2017(11)
[5]面向文献主题自动标引的通用概念表建设[J]. 李军莲,王序文,夏光辉,冀玉静.  情报理论与实践. 2017(04)
[6]知识图谱中实体相似度计算研究[J]. 李阳,高大启.  中文信息学报. 2017(01)
[7]数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 李湘东,巴志超,高凡.  现代图书情报技术. 2016(09)
[8]基于引文上下文的学术文本自动摘要技术研究[J]. 陈海华,黄永,张炯,陆伟.  数字图书馆论坛. 2016(08)
[9]一种基于模糊信息熵的协同过滤推荐方法[J]. 林耀进,张佳,林梦雷,王娟.  山东大学学报(工学版). 2016(05)
[10]基于句群的自动文摘方法[J]. 王荣波,张璐瑶,李杰,黄孝喜,周昌乐.  计算机应用. 2016(S1)

硕士论文
[1]面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现[D]. 陈欢.华中师范大学 2014
[2]一种基于语义的服务标识搜索引擎的设计与实现[D]. 王士博.北京交通大学 2009
[3]基于云计算的语义搜索引擎研究[D]. 张建梁.复旦大学 2009
[4]迭代算法在ICT中的应用研究及几何失真的标定[D]. 赵凤勇.大连理工大学 2005



本文编号:3620486

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3620486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ab2e6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com