当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式架构的海量文本信息检索系统的设计与实现

发布时间:2017-05-16 11:20

  本文关键词:基于分布式架构的海量文本信息检索系统的设计与实现,由笔耕文化传播整理发布。


【摘要】:随着互联网的快速发展,网络数据的使用越来越受到人们的关注,海量文本信息的组织和处理问题,是数据挖掘搜索引擎电信业务网络安全网络监管网络信息收集等领域所必然面临的问题,网络环境下产生的海量文本信息所具有的鲜明特点是需要全文检索,数据产生速度快密度大规模大且不间断如何存储管理这类海量文本信息及完成快速检索已经成为当前的一个重要课题而现在存储管理技术往往适用于日积月累形成的海量信息,如何存储管理持续高速的海量文本信息及快速检索尚缺乏十分有效的技术手段 本课题来自于哈尔滨市大源恒晟通信技术有限公司的实际项目本课系统主要被应用于公安网络安全领域同时,该系统也可以应用于帮助用户获取大量的个人感兴趣的文本信息 本课题所研究的内容,是在分析该类海量文本信息特点的基础上,运用ORACLE10g并行数据库分区表技术ROWID查询技术ElasticSearch分布式架构技术及多线程调度算法,从海量文本信息快速检索这个特定应用出发,设计和实现一个将涉及海量数据加载入库后,对海量文本信息进行数据存储管理文本索引创建及存储管理和文本信息检索通过使用本课题设计和实现的海量文本信息检索系统,可以满足用户快速检索文本信息的需求 在完成本课题的过程中,作者分析了海量文本信息存储和访问所需解决的问题基于本课题海量文本信息检索系统的应用领域,作者进行了业务场景的应用描述,并以此归纳成为系统的原始需求最后,作者依据软件开发生命周期,依次从需求分析系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现 在此过程中,,首先,本文使用用例模型分析和总结了系统的功能性需求然后,以此模型为基础设计了整个系统的功能模块和系统体系结构作为这一部分的核心,针对系统的文本信息存储文本索引创建工作引擎和Http检索服务框架这两个组件的设计和实现,本文借助类图时序图流程图模型对它们进行了重点的介绍
【关键词】:分布式架构 并行数据库 分区表 文本索引 全文检索
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-17
  • 1.1 课题来源与项目名称10
  • 1.2 课题背景及研究的目的和意义10-11
  • 1.3 本课题相关的国内外研究状况11-15
  • 1.3.1 国内搜索引擎现状11-12
  • 1.3.2 搜索引擎技术12-14
  • 1.3.3 国外优秀案例 ES14-15
  • 1.4 本文的主要研究内容15-16
  • 1.5 本文组织结构16-17
  • 第2章 系统需求分析及相关技术17-31
  • 2.1 系统需求描述17-18
  • 2.1.1 系统的应用场景17
  • 2.1.2 系统目标范围需求描述17-18
  • 2.1.3 提供服务方式需求描述18
  • 2.2 系统需求分析与建模18-21
  • 2.2.1 系统需求分析18-19
  • 2.2.2 系统功能性需求19-20
  • 2.2.3 系统非功能性需求20-21
  • 2.3 系统相关技术21-30
  • 2.3.1 并行数据库技术21-23
  • 2.3.2 分区表技术23-24
  • 2.3.3 ROWID 概述24-26
  • 2.3.4 全文检索技术26
  • 2.3.5 分布式架构 ES26-30
  • 2.4 本章小结30-31
  • 第3章 系统的总体设计31-38
  • 3.1 系统的架构设计31-33
  • 3.2 系统功能模块的设计33-34
  • 3.3 系统数据库相关设计34-37
  • 3.3.1 数据表设计34-36
  • 3.3.2 存储过程设计36
  • 3.3.3 分区索引设计36-37
  • 3.3.4 定时任务设计37
  • 3.4 本章小结37-38
  • 第4章 系统的详细设计与实现38-60
  • 4.1 用户管理模块的设计与实现38-40
  • 4.1.1 用户权限模块38-40
  • 4.1.2 用户管理模块40
  • 4.2 数据抽取模块的设计与实现40-42
  • 4.3 索引创建模块的设计与实现42-48
  • 4.3.1 索引文件格式42
  • 4.3.2 相关性排序算法42-45
  • 4.3.3 索引创建模块交互设计45-46
  • 4.3.4 索引创建模块实现46-48
  • 4.4 索引删除模块的设计与实现48-49
  • 4.5 索引重构模块的设计与实现49-51
  • 4.6 索引检索模块的设计与实现51-56
  • 4.6.1 分词器算法51-53
  • 4.6.2 索引检索模块交互设计53-55
  • 4.6.3 索引检索模块的实现55-56
  • 4.7 文本查询模块的设计与实现56-58
  • 4.8 表分区管理的设计与实现58-59
  • 4.9 本章小结59-60
  • 第5章 系统的测试60-79
  • 5.1 测试计划60-62
  • 5.1.1 测试环境60-61
  • 5.1.2 测试工具61
  • 5.1.3 测试对象和范围61-62
  • 5.1.4 测试技术与方法62
  • 5.2 系统测试62-78
  • 5.2.1 功能测试62-69
  • 5.2.2 性能测试69-78
  • 5.3 测试结论78
  • 5.4 本章小结78-79
  • 结论79-80
  • 参考文献80-84
  • 致谢84-85
  • 个人简历85

【参考文献】

中国期刊全文数据库 前10条

1 陈俊阳;ORACLE索引的使用与优化[J];电脑知识与技术;2005年14期

2 史斌;;Oracle分布式数据库及其实现[J];电脑知识与技术;2011年26期

3 陈

本文编号:370712


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/370712.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7bac0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com