当前位置:主页 > 社科论文 > 图书档案论文 >

词性在汉语科技文献检索中的作用与影响

发布时间:2023-06-03 01:52
  词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文文献信息检索有一定影响,但影响不大。本研究主要针对词性用于汉语科技文献检索的作用和影响进行研究,试图用测评数据说明影响程度和作用大小。 整个研究过程中,实现了畜牧兽医语料库和词表的建立工作。词性标注过程利用的是中国科学院计算技术研究所研制出的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS、南京农业大学研究生程冲设计的CARMM系统中的未登录词功能以及自建的畜牧兽医词表相结合的方式实现,词性标记集选用的是汉语文本词性标注标记集(北大版)。采用了两种提取检索词方式和多种检索模型,其中,两种提取检索词方式包括保留14维词性提取的检索词方式和人工辅助参与提取检索词方式;多种检索模型包括传统的布尔逻辑检索模型、“部分匹配的”布尔逻辑检索模型和向量空间模型。在向量空间模型中,根据阈值取值有其自身的不足的特点,本研究采用了两种阈值2%和5%的方式,得到了多种测评数据。根据测评数据,得出了带词性的检索和不带词性的检索的测评结果。测评结...

【文章页数】:83 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 自然语言处理(NLP)在信息检索中的应用
        1.1.1 自然语言处理(NLP)发展的三个阶段
        1.1.2 自然语言处理技术的应用
        1.1.3 自然语言处理资源的应用
    1.2 词性用于汉语科技文献检索的现实可能性
    1.3 论文主要研究的内容和框架
第二章 词性标注的国内外研究动态
    2.1 词性标注的含义与目的
    2.2 词性标注方法分类
    2.3 国外英文词性标注的研究
        2.3.1 国外的词性标注的语料库和标注系统
        2.3.2 国外学者对词性标注的模型研究
    2.4 国内汉语词性标注的研究
        2.4.1 国内汉语词性标注的语料库和标注系统
        2.4.2 国内学者对词性标注模型的研究
    2.5 词性标注对信息检索系统性能影响的研究
        2.5.1 目前词性标注用于检索的研究
        2.5.2 词性标注用于检索的两种用法
        2.5.3 词性标注对外文信息检索系统性能的影响
        2.5.4 词性标注对汉语文献信息检索系统性能的影响
第三章 基于词性的科技文献检索过程设计与实现
    3.1 建库
        3.1.1 文献来源
        3.1.2 文献格式和内容处理
        3.1.3 文献库设计
    3.2 专业词表建立
    3.3 切词和词性标注
        3.3.1 机器切词和词性标注
        3.3.2 人工辅助标注
        3.3.3 切词结果处理
        3.3.4 存库
    3.4 权值计算
        3.4.1 词频统计
        3.4.2 权值公式的选择
        3.4.3 归一化处理
        3.4.4 数据记录结构
    3.5 提问式设计
    3.6 相关文献分析
    3.7 检索模型的选择
        3.7.1 布尔逻辑模型检索
        3.7.2 向量空间模型检索
    3.8 检索的程序实现
        3.8.1 提问式导入
        3.8.2 提问式词性标注
        3.8.3 提取检索词
        3.8.4 向量检索
        3.8.5 布尔检索
第四章 比较测评
    4.1 常用信息检索系统测评方法
        4.1.1 测评指标
        4.1.2 概括表统计
        4.1.3 检准率、检全率折线图
        4.1.4 检准率、检全率差额直方图
    4.2 比较测评
        4.2.1 表格测评结果
        4.2.2 R、P的折线图测评结果
        4.2.3 R、P差值直方图和R、P差值的平均值表的测评结果
        4.2.4 测评小结
    4.3 与英文词性检索测评研究的比较
第五章 总结与展望
    5.1 本文研究的主要创新
        5.1.1 词性首次系统地用于汉语文献检索
        5.1.2 降维处理
        5.1.3 设计了可用于词性检索的“部分匹配的布尔逻辑模型”
        5.1.4 得出了词性检索对汉语文献检索的影响程度
    5.2 本文研究的不足之处
        5.2.1 专业词表建立的不够完善
        5.2.2 语料库专业单一,适用范围狭窄
        5.2.3 提问式的处理不能排除主观性
    5.3 后续研究工作
        5.3.1 扩大语料库的学科范围
        5.3.2 扩大语料库文献数目
        5.3.3 建立适合词性检索的检索模型
参考文献
附录1 汉语文本词性标注标记集(北大版)
附录2 37个检索提问式的测评结果表
致谢



本文编号:3828433

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3828433.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db292***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com