当前位置:主页 > 科技论文 > 搜索引擎论文 >

蒙古文搜索引擎原型系统的研究与实现

发布时间:2023-03-05 03:32
  随着社会的发展,信息越来越重要,作为信息检索的主流工具,人们对搜索引擎的要求也越来越高。在中文和英文方面,搜索引擎技术有着迅速的发展,但是有关少数民族文字信息检索的理论与技术研究相对较少,少数民族语言也需要自己的搜索引擎。在内蒙古自治区内有大量的、十分珍贵的蒙古文信息资源。随着国际标准编码Unicode码的发布,蒙古文网站发展迅速,蒙古文信息海量增加,而蒙古文在信息检索方面的理论与技术却只是刚刚起步。作为自治区的主体民族语言,蒙古文急需一个高效的蒙文搜索引擎来解决信息检索方面的问题。 本文通过研究搜索引擎的架构,分析信息检索的理论与技术,针对蒙古文自身的语言特点,以实现蒙古文搜索引擎的各大组件为目的,研究了搜索引擎各组件的特点、浏览器/服务器的工作形式、搜索引擎的问句扩展方式,在Lemur工具包的基础上实现了搜索引擎的各大组成部件,并将它们组合起来,成功实现了一个完善的蒙古文搜索引擎的原型系统。文中主要研究实现了蒙古文的词干提取方法,蒙古文信息处理的预处理方法,运用浏览器/服务器的形式实现了用户交互界面,通过研究Lemur工具的搜索特点,最终有效的将搜索引擎各大组件连接起来,形成了一个...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
目录
图表目录
第一章 绪论
    1.1 研究背景知识以及意义
    1.2 本课题的研究内容
    1.3 论文的结构
第二章 相关理论与技术
    2.1 搜索引擎的架构
        2.1.1 搜索引擎的目标
        2.1.2 搜索引擎各组件的关系
    2.2 Lemur简介
        2.2.1 Lemur的历史与功能
        2.2.2 Lemur的科研作用
    2.3 Web应用的体系结构
        2.3.1 收集数据
        2.3.2 向Web服务器发送请求
        2.3.3 执行服务器脚本
        2.3.4 将结果返回浏览器
    2.4 本章小结
第三章 索引处理
    3.1 文本采集
        3.1.1 爬虫
        3.1.2 信息源
        3.1.3 字符编码
        3.1.4 文档数据库
    3.2 文本处理
        3.2.1 文本格式的转换
        3.2.2 文本常见的转换方式
        3.2.3 词素切分,停用词表以及词干提取
    3.3 索引构建
        3.3.1 文档统计
        3.3.2 加权
        3.3.3 倒排
        3.3.4 索引分派
    3.4 本章小结
第四章 查询处理
    4.1 用户交互
        4.1.1 查询处理
        4.1.2 查询扩展
        4.1.3 结果输出
    4.2 排序
        4.2.1 打分机制
        4.2.2 性能优化
        4.2.3 分布式
    4.3 评价
        4.3.1 日志
        4.3.2 排序分析
        4.3.3 性能分析
    4.4 本章小结
第五章 蒙古文搜索引擎的设计与实现
    5.1 系统实现环境
    5.2 系统功能描述
    5.3 浏览器部分的设计与实现
        5.3.1 用户搜索界面的设计
        5.3.2 反馈结果界面显示
        5.3.3 管理者使用界面显示
    5.4 服务器部分的设计与实现
        5.4.1 服务器设计中关键算法描述
        5.4.2 用户交互部分的实现
        5.4.3 分布式的网络结构
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢



本文编号:3755615

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3755615.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a1058***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com