当前位置:主页 > 社科论文 > 图书档案论文 >

中文医学术语资源对真实世界医学文档语料的覆盖度调研

发布时间:2023-10-11 23:24
  背景:随着互联网和信息技术的快速发展,大数据和人工智能在医疗领域的应用逐渐变得全面而深入,促进着我国医疗卫生信息化建设。我国拥有着海量的医疗健康大数据资源,然而医学术语在真实世界中所使用的表达方式复杂多样,对医疗健康大数据资源的应用造成了阻碍。因此,我国已发布大量的中文医学术语资源,为医疗健康大数据的整合与应用打下了良好的基础。目的:通过统计中文医学术语资源和真实世界医学文档之间相同术语的数量,探索国内既有中文医学术语资源对真实世界医学文档语料的描述能力。方法:本研究系统的收集了包括国家标准、医学词典在内的15个中文医学术语资源,还收集了6个以医学指南、电子病历为代表的临床文本作为真实世界数据,并从中提取以疾病、症状等临床表型为代表的医学术语。随后以国际上权威的UMLS本体系统为核心搭建医学术语双语映射流程,将中文医学术语从中文映射和英文映射两条路径映射到UMLS本体上。最后通过字符串直接匹配和UMLS映射间接匹配两种方法计算出中文医学术语资源对真实世界医学文档语料的覆盖程度。结果:在真实世界医学文档中所收集的69865个医学术语中,与中文医学术语资源相匹配的数量为22183(31.7...

【文章页数】:53 页

【学位级别】:硕士

【文章目录】:
中文摘要
abstract
第一章 前言
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文主要工作及结构
        1.3.1 论文主要工作
        1.3.2 全文组织结构
    1.4 研究的创新点和难点
        1.4.1 研究的创新点
        1.4.2 研究的难点
第二章 研究材料
    2.1 中文医学术语资源
        2.1.1 中文医学术语资源的收集
        2.1.2 中文医学术语资源的预处理
        2.1.3 中文医学术语资源的数量统计
    2.2 真实世界医学文档语料
        2.2.1 真实世界医学文档语料的收集
        2.2.2 真实世界医学文档语料的预处理
        2.2.3 真实世界医学文档语料的数量统计与词频分类
    2.3 小结
第三章 研究方法与技术
    3.1 UMLS 简介
    3.2 基础工具与技术
        3.2.1 MetaMap
        3.2.2 Fuzzy Wuzzy
        3.2.3 文本翻译API
    3.3 基于UMLS本体的医学术语双语映射流程
        3.3.1 英文术语映射流程
        3.3.2 中文术语映射流程
        3.3.3 双语映射结果汇总流程
    3.4 映射结果分析
    3.5 小结
第四章 研究结果
    4.1 引言
    4.2 中文医学术语资源对真实世界医学文档语料的覆盖度调研
        4.2.1 基于字符串匹配的医学术语覆盖度调研
        4.2.2 基于UMLS本体映射匹配的医学术语覆盖度调研
        4.2.3 结合字符串匹配和UMLS本体映射匹配的医学术语覆盖度调研
    4.3 医学术语的构词结构对覆盖度的影响分析
    4.4 小结
第五章 结论与展望
    5.1 结论
    5.2 不足与展望
参考文献
缩略词汇
致谢



本文编号:3852994

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3852994.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ff28***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com