当前位置:主页 > 社科论文 > 图书档案论文 >

一种融合多元问题特征的专利聚类方法研究

发布时间:2023-03-25 06:30
  专利信息由发明名称、摘要、背景技术等信息构成,其中的背景技术文本着重描述了专利解决了什么问题,对什么技术进行改进,十分契合发明创造就是为了解决问题的本质。对专利背景技术进行挖掘能够更加快速、准确的帮助技术人员定位当前技术的核心问题,所以对专利的背景技术进行分析有着重要的研究意义。而目前针对专利内容的分析大部分都是基于标题和摘要信息,对背景技术相关的研究较为匮乏,并且研究内容缺乏针对性,无法罗列专利多元化的信息。本文开创性的从专利背景技术中分析出专利问题信息,并完成了包含专利问题信息的问题句定位、自定义问题三元组抽取工作,并在此基础上提出了一种融合专利多元问题特征的聚类方法,本研究将专利分析内容的粒度进行细化,进一步扩展了专利研究领域,本文主要贡献如下:(1)针对专利背景技术句子,本文分别定义了问题句与非问题句,对当前常规分类模型特征表示能力弱、对复杂句式分类不准确的现象,提出了融合注意力机制的ATT-C-L问题句定位模型。将文本特征拆分为卷积特征、将来和过去的上下文特征三类,并针对不同特征在实际的文本分类中,并不是平均的对文本分类起到作用的现象,引入了注意力机制捕捉对问题句定位最有效信...

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景和意义
    1.2 研究现状
        1.2.1 文本分类研究现状
        1.2.2 信息抽取研究现状
        1.2.3 专利聚类研究现状
    1.3 课题研究内容
    1.4 论文主要组织结构
第二章 相关技术理论概述
    2.1 本文术语定义
        2.1.1 专利背景技术中问题句定义
        2.1.2 专利背景技术中问题单元定义
    2.2 文本分类相关技术
    2.3 信息抽取相关技术
    2.4 专利文本聚类研究
        2.4.1 文本向量化表示方法
        2.4.2 相似性度量方法
        2.4.3 专利聚类方法
    2.5 本章小结
第三章 融合注意力机制的专利问题句定位模型
    3.1 注意力机制
    3.2 基于ATT-C-L模型的专利问题句定位模型
        3.2.1 文本预处理
        3.2.2 卷积神经网络特征提取
        3.2.3 循环神经网络特征提取
        3.2.4 基于ATT机制的特征权值计算
    3.3 实验结果与分析
    3.4 本章小结
第四章 专利问题单元提取方法研究
    4.1 基于专利文本特征的复杂句式过滤
    4.2 基于Word2vec的问题词词库构建
    4.3 针对问题句的句法词法分析
        4.3.1 依存句法分析工作
        4.3.2 语义角色标注工作
    4.4 融合相对特征的专利问题单元提取
        4.4.1 融入相对语义位置特征的专利问题源提取
        4.4.2 融入相对语义语法特征的问题词和问题对象联合抽取
        4.4.3 基于改进的ATT规则进行边际修正
    4.5 实验结果与分析
    4.6 本章小结
第五章 融合多元问题特征的专利聚类
    5.1 融合多元问题特征的专利聚类算法
        5.1.1 数据准备与语料预处理
        5.1.2 专利问题表达元组抽取
        5.1.3 专利多元问题特征表示与融合
        5.1.4 基于谱聚类的专利聚类
    5.2 实验结果与分析
    5.3 本章小结
结论
参考文献
攻读学位期间所取得的相关科研成果
致谢



本文编号:3770736

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3770736.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户75f5e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com