基于语料库的公文缩略语知识挖掘研究

发布时间:2017-09-14 01:52

  本文关键词:基于语料库的公文缩略语知识挖掘研究


  更多相关文章: 语料库 公文 缩略语 相关性 知识挖掘


【摘要】:缩略语的自动识别是公文自动理解的重点。当今时代信息化高度发达,大数据、物联网、云计算日益扩大影响范围并逐渐进入人们的日常生活,社会管理智能化水平不断提高。社会管理智能化要求强化信息资源开发利用和整合共享,将计算机网络等现代信息化技术运用于社会管理各方面、各环节,促进智能化技术在公共行政、社会管理与服务的广泛应用,大幅提升社会管理的效率与效益。面对现代社会生活中地位重要、种类繁多、信息海量的公文,单纯依靠人工进行处理效率很低,费时耗力;对公文信息进行简单的检索、维护和获取也已不能满足人们的需求。如何利用计算机信息处理技术有效对海量公文数据进行自动理解,提高公文信息处理智能化水平,成为时代和社会的迫切要求。因此,对公文进行自动理解和处理,实现办公自动化,是社会管理智能化的一项重要任务,其关键是综合分析公文一切可以利用的特征和标志性成分,从中挖掘其特征、规律、发展趋势及应用价值等信息。 缩略语作为公文词汇的重要组成部分,形式上具有鲜明的标志性特征,意义上具有独特丰富的内涵,是公文中的重要标志性成分。因此,对公文缩略语进行知识挖掘,是公文自动理解的重要任务。 同时,缩略语的自动识别也是公文自动理解的难点。从形式来看,缩略语很多都是“表外词”或“未登录词”,需要依据词表进行自动分词的计算机难以准确识别。从语义来看,缩略语虽然形式简单,但是往往内涵独特丰富,单纯从字面上很难理解和把握,即使人工智能水平较高的计算机程序也难以准确全面地理解公文缩略语的“微言大义”。 公文缩略语知识挖掘研究,就是通过对静态和动态系统的公文缩略语进行统计、分析、归纳、比较,从中发现公文缩略语的构造特征、语义特点等静态属性以及其动态使用和发展变化的规律等,为公文缩略语的自动识别提供思路和方法,服务于公文智能化信息处理。公文缩略语知识挖掘,可以为公文缩略语的自动识别提供理论和实践上的支撑,有助于进一步完善和优化有关自动分词软件的性能,提高公文自动理解的效率和准确度,在一定程度上破解公文自动理解的难题。此外,它还可以对汉语缩略语进行深入的统计描写,为共同语的研究做出贡献,为探求社会政治和文化发展演变提供参考等等,具有重要的理论意义和应用参考价值。 为挖掘缩略语在形式、意义等方面的特征和规律,本文建立了公文主题词表、11种专门缩略语词典和《现代汉语词典》所见缩略语的数据库,通过对缩略语在静态系统中的缩略方式、词长、结构、词性等属性的统计分析,发现抽取核心语素的方式是缩略语主要的缩略方式。而抽取核心语素形成的缩略语组成成分之间是一种随机变量的关系,其相关性的高低对缩略语的识别具有重要意义,为基于相关性理论识别公文缩略语提供了思路。 为深入考察公文缩略语的运用情况,验证静态系统缩略语知识挖掘的结论,本文建立了1200余万字的当代汉语政教类公文抽样语料库,通过分词、标注、人工校对等加工后,对其中的缩略语动态分布情况进行了抽样统计和定量分析,结果证明缩略语动态存在的属性特征与静态系统缩略语知识挖掘的结论是一致的。在此基础上,我们抽样统计了语料库中词语的二元相关性组合,进行从中识别和抽取缩略语的实验,获得了比较理想的结果。 全文共分六章。 第一章绪论。介绍选题的目的和意义、研究现状以及指导理论和研究方法等。汉语词汇学理论、计量语言学理论、语言文字信息处理及办公自动化理论是本研究的主要指导理论,语料库语言学、静态与动态相结合、定量与定性相结合的方法是本文的主要研究方法。 第二章公文缩略语知识挖掘基础研究。通过对公文主题词表、11种专门缩略语词典和《现代汉语词典》缩略语的统计分析,归纳缩略语在缩略方式、词长、结构和功能属性等方面的特征。从中发现:抽取核心语素的方式是缩略语的主要缩略方式,其组成成分之间是一种随机变量的关系,其频度是重要参数,可以依据相关性理论进行识别;名词性缩略语和动词性缩略语是知识挖掘的重点;数字统括式缩略语重要的语法功能特征是意义上具有合理性的“数词+名词”、“数词+动词”组合,这一特征为数字统括式缩略语的自动识别提供了重要思路。由此得出:以相关性理论为基础理论,将缩略语构成成分之间的相关性作为基础参数,将其功能属性作为辅助参数,重点考察研究词长为二至四音节的缩略语,可以作为公文缩略语自动识别的基本路径。 第三章政教类公文抽样语料库的研制。介绍公文语料库研制的目的、抽样原则和方法、语料库规模、语料加工等,特别是对语料库自动分词标注中的偏误进行的人工校对。 第四章基于语料库的公文缩略语定量分析。统计分析公文语料库与专门缩略语词典共现缩略语在缩略方式、词长、结构和功能属性等方面的动态分布情况,验证了静态系统缩略语知识归纳所得到的基本结论。 第五章公文缩略语的自动识别研究。这是本研究的主体内容和主要创新点,主要是根据静态和动态系统缩略语知识挖掘所提供的思路,基于二元相关性理论,对语料库中的词语组合进行二元相关性抽样统计,将二元相关性组合的频次和功能属性作为重要参数,重点对“1+1”式、“1+2”式、“2+1”式、“2+2”式、“数词+名词”模式和“数词+动词”模式的二元相关性组合进行缩略语识别和抽取实验,获得了比较理想的结果。由此得出如下结论:基于相关性理论,通过对词语二元相关性组合的统计分析进行缩略语识别和抽取思路正确;缩略语识别和抽取的重点应该是“1+1”式、“1+2”式和“2+1”式的组合;频次和功能属性是缩略语自动识别过程中应该参考的重要参数,将二者结合起来考察可增强缩略语识别和抽取的针对性、可行性和有效性;公文中的准缩略语,比如“教发、司函、厅函、教督、教办、教人、湘政函、豫政函、云政函、冀政函、闽政函”等,有助于计算机识别公文的形式、来源和制发单位等等,对其进行自动识别,应该将“名词+名词”模式的二元相关性组合作为重点来考察;数字统括式缩略语可以重点从“数词+名词”模式和“数词+动词”模式的二元相关性高频组合中识别和抽取。 第六章结语。对本研究的基本理论和思路、存在的不足进行概括评价和总结,认为基于二元相关性理论进行公文缩略语自动识别可行有效,并提出了公文缩略语动态词表优化的基本原则。
【关键词】:语料库 公文 缩略语 相关性 知识挖掘
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:H136
【目录】:
  • 中文摘要10-14
  • ABSTRACT14-18
  • 第一章 绪论18-38
  • 1.1 选题的目的和意义18-30
  • 1.1.1 缩略语是公文的重要标志性成分18-24
  • 1.1.2 公文缩略语知识挖掘的意义24-30
  • 1.2 本选题的研究现状30-35
  • 1.2.1 公文缩略语研究现状30-34
  • 1.2.2 缩略语研究中有待解决的问题34-35
  • 1.3 研究内容、指导理论和研究方法35-38
  • 1.3.1 研究内容35
  • 1.3.2 指导理论35-36
  • 1.3.3 研究方法36-38
  • 第二章 公文缩略语知识挖掘基础研究38-79
  • 2.1 公文缩略语概说38-42
  • 2.1.1 公文缩略语的界定38
  • 2.1.2 公文缩略语与原型词语的关系38-40
  • 2.1.3 公文缩略语产生的原因40-42
  • 2.2 静态系统缩略语知识归纳42-79
  • 2.2.1 典内缩略语的基本数据42-45
  • 2.2.2 典内缩略语的属性分析45-77
  • 2.2.3 小结77-79
  • 第三章 政教类公文抽样语料库的研制79-97
  • 3.1 研制目的79
  • 3.2 抽样原则与方法79-81
  • 3.2.1 抽样原则79-80
  • 3.2.2 抽样方法80-81
  • 3.3 语料库规模81
  • 3.4 语料加工81-85
  • 3.4.1 生语料初加工81-82
  • 3.4.2 语料库分词标注82-85
  • 3.5 人工校对85-97
  • 3.5.1 缩略语误切分的校对85-90
  • 3.5.2 公文术语误切分的校对90-92
  • 3.5.3 专有名词误切分的校对92-97
  • 第四章 基于语料库的公文缩略语定量分析97-117
  • 4.1 语料库词语基本数据97-99
  • 4.2 语料库所见缩略语的分布99-111
  • 4.2.1 缩略方式分布99-102
  • 4.2.2 词长分布102-104
  • 4.2.3 功能属性分布104-107
  • 4.2.4 结构方式分布107-111
  • 4.3 “词化”缩略语的分布111-115
  • 4.4 小结115-117
  • 第五章 公文缩略语的自动识别研究117-154
  • 5.1 缩略语自动识别研究现状117-119
  • 5.2 关于二元相关性119-122
  • 5.2.1 相关性理论119-120
  • 5.2.2 相关性的意义120-121
  • 5.2.3 相关性的获得121-122
  • 5.3 公文语料库词语相关性抽样统计122-126
  • 5.3.1 二元相关性组合频级分布123-125
  • 5.3.2 二元相关性组合词长分布125-126
  • 5.4 双音节缩略语的识别126-137
  • 5.4.1 “1+1”式组合缩略语识别126-133
  • 5.4.2 “名词+名词”模式组合缩略语识别133-135
  • 5.4.3 “动词+动词”模式组合缩略语识别135-137
  • 5.5 “1+2”式相关性组合缩略语的识别137-141
  • 5.5.1 “1+2”式相关性高频组合缩略语识别137-139
  • 5.5.2 “1+2”式相关性中低频组合缩略语识别139-141
  • 5.6 “2+1”式相关性组合缩略语的识别141-145
  • 5.6.1 “2+1”式相关性高频组合缩略语识别141-143
  • 5.6.2 “2+1”式相关性中低频组合缩略语识别143-145
  • 5.7 “2+2”式相关性组合缩略语识别145-147
  • 5.8 数字统括式缩略语的识别147-152
  • 5.8.1 “数词+名词”模式组合的缩略语识别147-150
  • 5.8.2 “数词+动词”模式组合的缩略语识别150-152
  • 5.9 小结152-154
  • 第六章 结语154-157
  • 6.1 基于相关性理论进行公文缩略语知识挖掘可行有效154-155
  • 6.2 公文缩略语动态词表的优化155-156
  • 6.3 本研究的不足156-157
  • 附录1:政教类公文高频缩略语例样表157-164
  • 附录2:公文主题词表缩略语频度统计表164-167
  • 附录3:公文语料库准缩略语例样表167-169
  • 参考文献169-172
  • 致谢172-174
  • 攻读博士学位期间发表的学术论文174-175
  • 学位论文评阅及答辩情况表175

【相似文献】

中国期刊全文数据库 前10条

1 宋惠梅;证书证件类属不属于公文?[J];秘书之友;2002年05期

2 高洁;从清代公文传递看今之公文运转[J];秘书;2002年10期

3 方应天;金融机构公文处理与写作问题研究[J];河南金融管理干部学院学报;2003年02期

4 王东海,王丽英;公文术语的义值分析[J];烟台师范学院学报(哲学社会科学版);2005年01期

5 王晓莉;;公文、志书文风共性浅析[J];档案学研究;2007年03期

6 任雪浩;李伟华;窦莉;韩晓冬;;现代公文标题写作规范及其病误分析[J];天津工程师范学院学报;2008年03期

7 岳海翔;;我国当代公文法规建设的重大变革——学习新的《党政机关公文处理工作条例》[J];写作;2012年23期

8 聂学祥;;浅谈公文撰写工作应把握的几个问题[J];应用写作;2012年04期

9 张国浩;;论公文价值的标准[J];写作;2013年17期

10 余戎;罗清萍;;从公文处理新《条例》看公文改革方向[J];应用写作;2013年01期

中国重要会议论文全文数据库 前10条

1 张林华;;求实、精简、高效——提高公文处理水平的原则[A];中国档案学会第六次全国档案学术讨论会论文集[C];2002年

2 李秀玲;;贯彻落实“四讲”工作思路 全面提升公文处理工作质量——对站段公文处理有关问题的分析与建议[A];甘肃省铁道学会文秘档委员会2006年度综合学术研讨会论文集[C];2006年

3 王启和;;公文特征论要[A];中国当代秘书群星文选[C];1999年

4 王书生;;公文校核漫谈[A];中国当代秘书群星文选[C];1999年

5 王志新;;公文制发中的“盲点”问题[A];中国当代秘书群星文选[C];1999年

6 黄新荣;;公文主题词标引病例浅析[A];中国当代秘书群星文选[C];1999年

7 白文坤;;军队机关公文处理的准则——学习《中国人民解放军机关公文处理条例》的体会[A];中国当代秘书群星文选[C];1999年

8 孙艳;;关于公文电子化推行过程中所面临的问题及对策[A];甘肃省铁道学会文秘档委员会2006年度综合学术研讨会论文集[C];2006年

9 高飞卫;;曹操公文特色浅论——兼评曹操对文秘制度的改革[A];中国当代秘书群星文选[C];1999年

10 芮国强;;元明清的公文稽察汇奏制度概述[A];中国当代秘书群星文选[C];1999年

中国重要报纸全文数据库 前10条

1 喻非卿;高度重视公文处理工作[N];中国文化报;2007年

2 记者 李宇;公文处理有望提速[N];秦皇岛日报;2006年

3 阮煜君;如何更换公文处理服务器[N];中国税务报;2008年

4 记者 杨艳玲;省委办公厅滇西片区公文处理业务培训在大理开班[N];大理日报(汉);2009年

5 潘静 李扬 胡明明;我市举办行政机关公文处理培训班[N];蚌埠日报;2010年

6 本报记者 陈东升 本报实习生 王春;微博公文遭遇三大质疑[N];法制日报;2011年

7 马继红 曾嵘欣;全省公文处理工作座谈会在贵阳召开[N];贵州日报;2011年

8 霍静;中航二集团举办公文展[N];中国航空报;2005年

9 记者 王诗_g;民航各单位要提高 公文处理能力[N];中国民航报;2012年

10 李雪颖;总局贯彻落实《党政机关公文处理工作条例》[N];中国体育报;2012年

中国博士学位论文全文数据库 前4条

1 沈载权;朝鲜与明清公文比较研究[D];南京师范大学;2007年

2 赵娟廷;汉韩公文语体对比研究[D];复旦大学;2003年

3 陈龙;明代公文变革论[D];南京师范大学;2007年

4 陈民科;人力资源公文筐测验与效度验证:基于内隐评价策略的思路[D];浙江大学;2003年

中国硕士学位论文全文数据库 前10条

1 张乐;英汉公文比较与分析[D];长春理工大学;2008年

2 杨剑;建国以来我国公文制度研究[D];安徽大学;2010年

3 柴俊星;两岸四地公文、公文语体的现状比较及未来走向[D];华中师范大学;2002年

4 安源;党政机关公文处理工作研究[D];吉林大学;2007年

5 李莉;论先秦公文的原生意义[D];南京师范大学;2011年

6 姜丽艳;俄汉公文事务语体的语言特点及翻译策略[D];黑龙江大学;2009年

7 张帆;历时性与共时性境遇下的公文拟稿研究[D];长春理工大学;2010年

8 李柯;建国以来公文与政治语境关系的研究[D];四川师范大学;2010年

9 程英;中国公文工作制度史研究[D];四川大学;2006年

10 万志宏;情境模拟公文筐测试应用模式的探究[D];苏州大学;2003年



本文编号:847181

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/847181.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户da98e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com