汉语文本可读性特征体系构建和效度验证
发布时间:2023-05-20 09:34
本文研究如何利用汉语文本的语言特征对文本的可读性进行分析。首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,该特征体系包含13个维度共104项指标。然后以12个年级的语文教材语料库为基础,通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力。实验结果显示:汉字、词汇、句法和篇章四个层面中,基于词汇层面特征的模型准确率最高,基于篇章层面特征的模型准确率最低;13个维度中,预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度。我们还发现,四个层面语言特征对低难度文本的预测能力均最强。
【文章页数】:17 页
【文章目录】:
一引言
二汉语文本可读性特征体系的构建
2.1汉字层面
2.2词汇层面
2.3句法层面
2.4篇章层面
三汉语文本可读性特征体系的效度验证
3.1方法
3.1.1语料库
3.1.2特征抽取和模型构建
3.2结果
3.2.1汉字、词汇、句法和篇章层面特征及其组合的预测准确率
3.2.2四个层面下各维度特征的预测准确率
3.2.3总模型和四个层面特征模型在不同级别文本上的预测准确率
四讨论
4.1汉字、词汇、句法和篇章特征对汉语文本可读性的预测能力
4.2不同层面语言特征的预测作用与文本可读性级别的关系
五结语
本文编号:3820877
【文章页数】:17 页
【文章目录】:
一引言
二汉语文本可读性特征体系的构建
2.1汉字层面
2.2词汇层面
2.3句法层面
2.4篇章层面
三汉语文本可读性特征体系的效度验证
3.1方法
3.1.1语料库
3.1.2特征抽取和模型构建
3.2结果
3.2.1汉字、词汇、句法和篇章层面特征及其组合的预测准确率
3.2.2四个层面下各维度特征的预测准确率
3.2.3总模型和四个层面特征模型在不同级别文本上的预测准确率
四讨论
4.1汉字、词汇、句法和篇章特征对汉语文本可读性的预测能力
4.2不同层面语言特征的预测作用与文本可读性级别的关系
五结语
本文编号:3820877
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3820877.html