基于索引行聚类的英语动词型式自动识别与提取研究

发布时间:2023-04-17 00:21
  型式化语言在自然语言中广泛存在。概括和提取语言型式对语言研究、辞书编纂、语言教学等具有重要意义。传统研究中的型式提取主要采用手工分析方法,耗时费力,无法应对大规模语料。已有的为数不多的型式自动识别研究效果欠佳,适用范围有限。本研究采用相似度分析方法,尝试在索引行自动聚类的基础上实现英语动词型式的自动识别与提取。本研究重点回答以下两个研究问题:1)影响索引行聚类的因素有哪些?如何确定索引行聚类中的分组数量?2)型式自动识别与提取模型的准确率及召回率如何?影响因素有哪些? 研究中基于型式语法(Hunston&Francis2000)和英语动词型式列表(Francis et al1996),归纳出型式的必要元素,构建特征集,依此进行索引行自动聚类。研究包括五个环节:1、从赋码语料库中析出相关动词的索引行;2、归纳英语动词型式列表中的型式元素,建立特征集;3、将索引行中的语言信息转换为型式元素;4、对索引行进行相似度计算,实现自动聚类;5、提取每组索引行的公共特征项,最终生成相关动词型式列表。 本研究模型调试及验证语料均取自BNC的笔语部分(共约9000万词次)。模型调试阶段从动词型式...

【文章页数】:249 页

【学位级别】:博士

【文章目录】:
致谢
摘要
Abstract
第一章 引言
    1.1 研究背景
    1.2 本研究的理论及实践意义
        1.2.1 论意义
        1.2.2 实践意义
    1.3 本研究概述
        1.3.1 研究目的
        1.3.2 研究问题及研究对象
        1.3.3 研究步骤
            1.3.3.1 语料及预处理
            1.3.3.2 特征集的建立及其转换
            1.3.3.3 权重计算
            1.3.3.4 索引行聚类
            1.3.3.5 型式提取
    1.4 论文结构
    1.5 小结
第二章 型式与型式语法
    2.1 型式
        2.1.1 型式研究的缘起与发展
        2.1.2 型式的定义
        2.1.3 型式实例
        2.1.4 型式元素及其编码
        2.1.5 本研究中判别型式的六个标准
    2.2 型式语法
        2.2.1 短语学思想与习语原则
        2.2.2 词汇与语法关系及各自地位
            2.2.2.1 词汇语法不可分
            2.2.2.2 词汇为中心的研究
        2.2.3 型式与意义的关系
    2.3 型式语法的优缺点
        2.3.1 型式语法与传统语法差异
        2.3.2 型式语法的优点
        2.3.3 型式语法的不足
    2.4 以型式语法为理论基础的相关研究
    2.5 小结
第三章 型式识别方法与相关应用研究
    3.1 型式识别标准
    3.2 型式总结的必要性
    3.3 型式的识别
        3.3.1 型式的人工识别
        3.3.2 型式人工识别辅助工具的开发
        3.3.3 型式的自动识别
            3.3.3.1 型式自动识别的理据
            3.3.3.2 型式的自动识别研究
    3.4 现有的语言型式网络平台数据库
        3.4.1 基于机器处理的网络数据库
        3.4.2 基于人工处理的网络数据库
    3.5 小结
第四章 聚类分析
    4.1 文本表示
    4.2 特征选择及其权重
        4.2.1 特征选择
        4.2.2 权重计算
    4.3 相似度计算
        4.3.1 相似度计算的源起及理据
        4.3.2 相似度计算方法
        4.3.3 相似度分析在语言研究中的应用
    4.4 聚类算法
        4.4.1 划分聚类
        4.4.2 层次聚类
    4.5 聚类质量评价指标
    4.6 聚类在本研究的应用理据
    4.7 小结
第五章 文本预处理与特征集的建立及转换
    5.1 研究概述
    5.2 语料选取
    5.3 研究工具
        5.3.1 语料预处理工具
        5.3.2 自主开发的模块及脚本
    5.4 语料预处理流程
    5.5 动词型式中的必要元素及其转换方法
        5.5.1 型式列表中元素的总体特征
        5.5.2 具体词形的处理方法
            5.5.2.1 右侧搭配词处理方法
            5.5.2.2 左侧搭配词处理方法
            5.5.2.3 两侧搭配词处理方法
        5.5.3 相邻单词组合的处理方法
        5.5.4 词类标签及语义类标签的转换方法
            5.5.4.1 词类标签的转换方法
            5.5.4.2 语义类标签转换方法
        5.5.5 转换顺序及步骤
    5.6 小结
第六章 索引行聚类及型式自动提取方法
    6.1 特征表示方法、特征权重与位置权重的计算
        6.1.1 特征及特征权重
            6.1.1.1 功能词处理方法
            6.1.1.2 特征标记方法
            6.1.1.3 型式边界的界定
            6.1.1.4 索引行跨距的设定
            6.1.1.5 特征权重计算方法
        6.1.2 位置权重
        6.1.3 特征-索引行矩阵的生成
    6.2 聚类算法
        6.2.1 相似度计算
        6.2.2 K均值算法
            6.2.2.1 K均值聚类
            6.2.2.2 K值的选择标准
    6.3 型式自动提取
    6.4 小结
第七章 型式自动提取模型测试
    7.1 模型调试数据集及模型验证集的构建
        7.1.1 调试阶段语料集合的构成
        7.1.2 验证集的创建过程
            7.1.2.1 验证集中词项的选择
            7.1.2.2 验证集中索引行的抽取及处理方法
    7.2 配置文件的处理及参数设置与调整
        7.2.1 配置文件处理顺序
        7.2.2 参数设置与调整
            7.2.2.1 特征权重计算方法调试过程与解决方法
            7.2.2.2 位置权重计算方法调试过程及解决方法
            7.2.2.3 每个特征的总体权重计算方法
            7.2.2.4 跨距设定调试过程
    7.3 测试数据的评价指标
        7.3.1 聚类内部效度评估指标在本研究中的应用
        7.3.2 聚类外部效度评估指标在本研究中的应用
    7.4 数据结果报告
        7.4.1 索引行中型式及型式元素分布特征
            7.4.1.1 型式元素总体分布特征
            7.4.1.2 与动词高频共现的特征及其频数
            7.4.1.3 不同动词型式列表中特征的异同
        7.4.2 K值确定下基于现有人工标签的型式自动识别效度分析
            7.4.2.1 验证集中型式自动识别外部效度评估结果总体描述
            7.4.2.2 实验动词的型式自动识别准确率及召回率
            7.4.2.3 K值确定下型式自动识别后的再思考
        7.4.3 K值不确定下基于现有人工标签的型式自动识别效度分析
            7.4.3.1 K值不确定下型式自动识别的外部效度测量结果总体描述
            7.4.3.2 K值不确定下型式自动识别的准确率及召回率
            7.4.3.3 K值未知情况下模型验证的再思考
    7.5 分析和讨论
        7.5.1 数据背后的语言学思考
            7.5.1.1 印证了分布假设
            7.5.1.2 印证了词汇语法不可分
            7.5.1.3 型式元素间的横组合关系
            7.5.1.4 常规型式与非常规型式
        7.5.2 影响部分型式自动识别错误的原因
            7.5.2.1 型式元素间的插入成分
            7.5.2.2 无引导词THAT标志的从句识别
            7.5.2.3 赋码错误
            7.5.2.4 名词短语的识别问题
        7.5.3 关于聚类外部效度测量结果的再思考
        7.5.4 与前人研究结果的对比
    7.6 小结
第八章 英语动词型式自动提取模型的应用设想
    8.1 应用范围
        8.1.1 型式自动识别与提取在语言教学领域的应用
            8.1.1.1 型式自动识别与提取在教学大纲制定中的应用
            8.1.1.2 型式自动识别与提取在语言课堂教学中的应用
            8.1.1.3 型式的自动识别与提取可以服务于学习者自主学习
        8.1.2 型式自动识别与提取在语言研究中的应用
            8.1.2.1 型式自动提取在词典编纂中的应用
            8.1.2.2 型式自动提取模型对非常规用法的识别
            8.1.2.3 型式自动识别在语言学研究中的应用
        8.1.3 型式自动识别与提取在其他领域的应用可能
    8.2 应用时需要注意的问题
        8.2.1 语料及语料的赋码
        8.2.2 聚类时参数的设置
    8.3 小结
第九章 研究发现及价值
    9.1 研究发现
        9.1.1 索引行聚类的影响因素及分组数量的选择
            9.1.1.1 索引行聚类的影响因素
            9.1.1.2 索引行聚类时簇数量的选择
        9.1.2 型式自动识别的准确率及其影响因素
            9.1.2.1 型式自动识别准确率的提高
            9.1.2.2 影响部分型式自动识别错误的因素
        9.1.3 不同动词索引行中型式元素的分布存在差异
    9.2 研究价值及创新之处
        9.2.1 理论方面
            9.2.1.1 对型式语法的反哺
            9.2.1.2 对其他语言学理论的贡献
        9.2.2 方法论方面
        9.2.3 实践方面
    9.3 本研究的不足之处
    9.4 未来研究方向
    9.5 小结
参考文献
附录



本文编号:3792181

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/3792181.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7f082***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]