《史记》历史事件自动抽取与事理图谱构建研究

发布时间：2021-11-15 16:14

　　[目的/意义]《史记》是我国第一部纪传体史书,几乎囊括黄帝时代到汉武帝元狩元年3 000多年的重大历史事件。如何快速准确地发现这些历史事件及其之间的内在联系,对于透过历史现象、揭示历史实质以及发现历史规律具有重要意义。[方法/过程]在BERT模型和LSTM-CRF模型的基础上,提出面向《史记》的历史事件及其组成元素抽取方法,并基于此构建《史记》事理图谱。[结果/结论]实验结果表明,利用所提方法抽取历史事件及其组成元素的F1值分别达到0.823和0.760。通过事理图谱能够发现蕴含在《史记》中鲜为人知的知识,这为文献学、历史学、社会学等领域专家开展研究提供必要的资料准备。

【文章来源】：图书情报工作. 2020,64(11)北大核心CSSCI

【文章页数】：9 页

【部分图文】：

历史事件及其组成元素抽取框架

模型结构,向量,语料

BERT模型利用Transformer双向编码表示,通过引入自注意力机制,能够更好地描述历史事件上下文的语义特征。该模型有效地解决了传统向量表示方法由于对历史信息过分依赖而出现的“一词多义”的问题,图2给出了BERT模型的整体结构。利用BERT模型对实验语料集进行向量化表示的基本流程具体如下:首先,依次将语料集中的每个句子输入模型;接着,将输入的句子表示为由字向量、句向量和位置向量组成的输入向量Ei(i=1,2,…,n);然后,利用多层Transformer(图2中简写为Trm)对语料经特征提取后生成特征向量Ti(i=1,2,…,n)。4.2 BiLSTM-CRF模型

模型结构,历史事件,语义关系,特征向量

图3给出BiLSTM-CRF模型的整体结构。利用BiLSTM-CRF模型对实验语料集进行历史事件抽取的基本流程具体如下:首先,将BERT模型得到的特征向量Ti(i=1,2,…,n)输入模型;然后,利用BiLSTM模型学习特征向量之间的语义关系,并为每个特征向量打上相应的历史事件标签;最后,根据CRF的约束规则分析历史事件关系标签之间的语义关系,进而得到历史事件抽取结果。5 实验设计和实验结果分析

【参考文献】：
期刊论文
[1]基于网络科技信息的事件抽取研究[J]. 刘振.  情报科学. 2018(09)
[2]中文事件抽取研究文献之算法效果分析[J]. 吉久明,陈锦辉,李楠,孙济庆.  现代情报. 2015(12)
[3]基于事件实例驱动的新闻文本事件抽取[J]. 许旭阳,李弼程,张先飞,韩永峰.  计算机科学. 2011(08)
[4]基于知网的中文事件抽取研究[J]. 许君宁,董萍,刘怀亮.  情报杂志. 2009(S2)
[5]一种事件信息抽取模式获取方法[J]. 姜吉发.  计算机工程. 2005(15)

本文编号：3497109

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shekelunwen/zhongguolishiwenhua/3497109.html

上一篇：论中国古代河内地区经济的稳定发达——以焦作地区为中心
下一篇：浅议虢季氏家族诸器铭与西周重大礼制问题

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|