汉语文本可读性特征体系构建和效度验证

发布时间：2023-05-20 09:34

　　本文研究如何利用汉语文本的语言特征对文本的可读性进行分析。首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,该特征体系包含13个维度共104项指标。然后以12个年级的语文教材语料库为基础,通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力。实验结果显示:汉字、词汇、句法和篇章四个层面中,基于词汇层面特征的模型准确率最高,基于篇章层面特征的模型准确率最低;13个维度中,预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度。我们还发现,四个层面语言特征对低难度文本的预测能力均最强。

【文章页数】：17 页

【文章目录】：
一引言
二汉语文本可读性特征体系的构建
    2.1汉字层面
    2.2词汇层面
    2.3句法层面
    2.4篇章层面
三汉语文本可读性特征体系的效度验证
    3.1方法
        3.1.1语料库
        3.1.2特征抽取和模型构建
    3.2结果
        3.2.1汉字、词汇、句法和篇章层面特征及其组合的预测准确率
        3.2.2四个层面下各维度特征的预测准确率
        3.2.3总模型和四个层面特征模型在不同级别文本上的预测准确率
四讨论
    4.1汉字、词汇、句法和篇章特征对汉语文本可读性的预测能力
    4.2不同层面语言特征的预测作用与文本可读性级别的关系
五结语

本文编号：3820877

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/wenyilunwen/hanyulw/3820877.html

上一篇：《心理语言学与语言的神经生物学研究方法》评介
下一篇：数字化阅读模式给外语阅读带来的利与弊

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|