认知诊断评价中测验属性界定及诊断模型开发研究

发布时间：2017-08-14 17:16

本文关键词：认知诊断评价中测验属性界定及诊断模型开发研究

【摘要】：认知诊断评价是一种新兴的测验形式,它可以根据被试在具有诊断功能的项目上的作答推断其潜在的知识状态。因此,相对于传统形式的测验,认知诊断评价对被试的学习、教师的教学、教学质量的考核和教学资源的分配等能提供更多的参考信息。认知诊断评价已经引起社会的广泛关注,我国的国家中长期教育发展规划纲要(2010-2020)中就明确提到要“注重因材施教,关注学生不同特点和个性差异,发展每一个学生的优势潜能,……,改革教育质量评价和人才评价制度”,要想施行因材施教,就必须深入了解学生的不同特点和个性差异,了解学生在知识掌握上的优势和不足,而这正是认知诊断评价的优势所在。要想实行认知诊断评价,有许多关键的问题需要解决。本文从实际应用的角度出发,主要关注其中的三个问题,围绕核心研究对象“属性”,为促进诊断测验的应用和大规模实施而展开。第一个问题是项目属性向量的定义(或称项目属性向量的界定),它包括两部分内容:对已界定项目的属性向量的验证和对未界定项目的属性向量的定义,通常情况下,这两部分内容主要是通过学科专家、测量专家等根据知识或经验共同界定;第二个问题是属性的粒度对于认知诊断评价的影响;第三个问题是认知诊断模型的开发与使用。对于第一个问题,目前主要使用的还是主观定义的方法,容易受到专家知识和个人经验的影响,经常会出现不同专家所界定的结果不一致,多个专家之间会出现争议的情况。比如,著名的“分数减法”(Tatsuoka,1983)数据,直到今天,其属性界定和Q矩阵界定仍然存在争议。De Carlo(2011,2012)也提到,认知诊断评价中的属性定义是一件非常困难的事情,项目属性的界定过程容易出现属性不确定或错误的情况;对于第二和第三个问题,也都是围绕“属性”而展开,共同来促进认知诊断评价的实际应用。本文中的三个问题之间是相互关联的,第一个问题得不到很好的解决,就导致第二和第三个问题也得不到很好的解决,项目属性向量的定义会涉及到属性粒度的选择,认知诊断模型的选择需要基于测验属性及其关系的定义,因此就有可能会出现诊断模型误用的情况。正是基于认知诊断评价中存在的这些问题的理解和认识,结合目前国内外的研究现状,本文从实际应用的角度,开展了四项研究。研究一:基于统计量的Q矩阵估计算法的改进,它包括3个部分的内容。(1)Liu,Xu和Ying在2012年提出了基于作答数据的Q矩阵推导方法,在模拟研究下,该方法有很高的Q矩阵估计成功率,是一种客观的推导Q矩阵的方法。由于Liu等的方法中有较多的假设,限制了该方法在实际中的使用,考虑解除部分假设,实行Q矩阵,项目参数的联合估计;进一步,解除Liu等在方法中把被试总体分布当做已知的假设,实行Q矩阵,项目参数和被试总体分布的联合估计。(2)第(1)个研究中,需要以一个较好的“初始Q矩阵”(即专家事先界定的Q矩阵中只包含少量的错误)作为基础,但在实际的应用中,有时未必能满足,因此,本研究基于少部分被正确界定的项目,实行Q矩阵、项目参数的在线估计;进一步,实行Q矩阵、项目参数和被试总体分布的在线估计。相对于(1),(2)的优势是不需要以一个较好的Q矩阵作为基础,这在实际应用中特别适合于题库的建设,可以通过已界定的项目对需要入库的新项目进行界定,它能同时估计项目的参数和属性向量,并且能保证所有项目的参数处在相同的量尺上。(3)目前大多关于认知诊断评价的研究都假定测验的属性个数定义正确,但是实际上,这在实际应用中也很容易出错,比如对于著名的“分数减法数据”,研究者们就分别按8个属性和5个属性进行分析过。本研究考察Q矩阵缺少一个必需的属性或多余一个额外的属性时,Q矩阵估计算法的表现。无论事先界定的Q矩阵的质量是好还是坏,(1)或(2)可以很好的解决,一方面,可以对新项目的属性进行界定,另一方面也可以对已界定的项目的属性进行验证。但是(1)和(2)存在的问题是算法中采用的统计量涉及到的计算量很大,特别是当属性个数、项目个数较大时,算法可能无法在短时间内输出结果。因此,研究二构建了新的Q矩阵统计量,使得Q矩阵的估计可以在较短的时间内完成,并且有较高的估计成功率。研究二:受项目反应理论中的项目拟合统计量似然比2的启发,构建了认知诊断框架下的项目属性拟合统计量2,它不但可以实行Q矩阵、项目参数的联合估计,而且可以实行Q矩阵、项目参数的在线估计。相对于研究一,基于2的Q矩阵估计方法可以在更短的时间内完成,对样本的要求更低,并且有很高的估计成功率,另外2统计量的一个突出的优点是不需要事先确定被试的属性掌握模式分布。研究三:属性的粒度会影响到测验蓝图的设计,进一步会影响诊断测验的分类准确率和分类效率。本研究主要考察属性粒度和属性间不同程度的相关对于被试分类的影响,研究了测验采用较“粗”粒度的Q矩阵和较“细”粒度的Q矩阵时,对被试的模式判准率、属性的平均判准率等的影响,为实际应用中选择Q矩阵提供参考。研究四:由于在实际的应用中,属性之间的关系是非常难于界定的,而目前已有的认知诊断模型大多基于属性间的某种特定关系构建的。因此,当选用的模型与属性间的实际关系不符时,就会出现模型和数据的拟合较差,降低诊断测验的分类准确率和测验结果提供的参考价值。本研究通过增加一个可以描述项目的属性间关系的参数,将项目属性间的补偿关系所导致的作答效应纳入到模型中,使得模型有更好的适应性。新构建的模型不但可以处理项目的属性间是非补偿作用的情况,而且可以处理完全补偿、部分补偿的情况。并且更重要的是,在实际应用中,不需要事先确定属性间的关系,通过模型参数就可以了解项目属性间的关系以及大小。相对于已有的模型,新模型在不同类型的测验数据中,有更好的适应性。
【关键词】：认知诊断评价 属性粒度 Q矩阵 诊断模型 补偿作用
【学位授予单位】：江西师范大学
【学位级别】：博士
【学位授予年份】：2015
【分类号】：B842
【目录】：

摘要3-6
ABSTRACT6-17
前言17-19
第一部分文献综述19-44
1.1 认知诊断评价19-27
1.1.1 认知诊断评价的目的21
1.1.2 认知模型21-24
1.1.3 属性的粒度24-25
1.1.4 矩阵25-26
1.1.5 矩阵理论26-27
1.2 认知诊断模型27-31
1.2.1 DINA模型27-28
1.2.2 DINO模型28-29
1.2.3 HO-DINA模型29-30
1.2.4 RUM模型30-31
1.3 Q矩阵的估计31-44
1.3.1 δ方法32-33
1.3.2 基于统计量的矩阵估计33-35
1.3.3 方法35-37
1.3.3.1 基于法的修正指标36
1.3.3.2 法的步骤36-37
1.3.4 贝叶斯方法37-40
1.3.4.1 采用MCMC方法估计部分元素37
1.3.4.2 识别Q矩阵中不确定的元素37-38
1.3.4.3 非线性惩罚的方法38-39
1.3.4.4 采用MCMC方法探索Q矩阵39-40
1.3.5 联合估计算法40-41
1.3.6 无监督学习和有监督学习方法41-44
1.3.6.1 极大似然估计方法42
1.3.6.2 边际极大似然估计方法42
1.3.6.3 交差方法42-44
第二部分问题提出与研究总体设计44-54
2.1 已有Q矩阵估计算法的特点44-45
2.2 属性粒度对认知诊断评价影响的研究45-46
2.3 属性间的补偿关系及诊断模型研究46-48
2.4 本文欲探讨的具体问题48-51
2.4.1 基于统计量的Q矩阵估计算法改进48-49
2.4.2 基于似然比统计量的矩阵估计49-50
2.4.3 属性粒度和属性关系对CDA分类的影响50-51
2.4.4 属性间的补偿关系及诊断模型研究51
2.5 本文的研究内容51-52
2.6 本文的研究意义52
2.7 本文的创新之处52-54
第三部分实验研究54-138
3.1 研究一基于统计量的矩阵估计算法改进54-73
3.1.1 研究目的54-55
3.1.2 研究方法55-63
3.1.2.1 项目属性向量界定错误时的Q矩阵估计55-57
3.1.2.2 测验属性个数界定错误时的Q矩阵估计57-63
3.1.3 实验设计63-70
3.1.3.1 数据模拟63-65
3.1.3.2 评价指标65-66
3.1.3.3 研究结果66-70
3.1.4 研究结论70-71
3.1.5 讨论71-73
3.2 研究二基于似然比统计量的矩阵估计73-88
3.2.1 研究目的73
3.2.2 研究方法73-81
3.2.2.1 IRT下的模型拟合度评价方法74
3.2.2.2 使用统计量来估计项目属性向量和矩阵74-81
3.2.3 实验设计81-86
3.2.3.1 数据模拟81-82
3.2.3.2 研究结果82-86
3.2.4 研究结论86-87
3.2.5 讨论87-88
3.3 研究三属性粒度和属性关系对CDA分类的影响88-114
3.3.1 研究目的88
3.3.2 研究方法88-89
3.3.2.1 属性粒度及其对的影响88-89
3.3.2.2 评价指标89
3.3.3 实验设计89-112
3.3.3.1 数据的模拟90-91
3.3.3.2 所有测验属性间有相近的相关91-100
3.3.3.3 0个属性间相关较高，，1? 0个属性间相关相近且较低100-112
3.3.4 讨论112-114
3.4 研究四属性间的补偿关系及诊断模型研究114-138
3.4.1 研究目的115
3.4.2 研究方法115-122
3.4.2.1 HDINA模型及其识别115
3.4.2.2 HDINA模型的构建115-117
3.4.2.3 HDINA模型的假设117-118
3.4.2.4 HDINA和DINA、DINO的关系118-120
3.4.2.5 HDINA 模型的参数估计120-122
3.4.3 实验设计122-135
3.4.3.1 HDINA模型的参数估计精度和分类研究122-125
3.4.3.2 DINA、DINO和HDINA模型交叉分类比较125-126
3.4.3.3 三种模型与数据的交叉拟合比较126-132
3.4.3.4 采用HDINA模型分析“分数减法”数据132-135
3.4.4 研究结论135-136
3.4.5 讨论136-138
第四部分综合讨论138-143
4.1 基于统计量的Q矩阵、项目参数和被试属性掌握模式估计138-140
4.1.1 联合估计138
4.1.2 在线估计138-139
4.1.3 属性个数存在错误时的Q矩阵估计139
4.1.4 存在的局限性139-140
4.2 基于D~2统计量的Q矩阵、项目参数和被试属性掌握模式估计140-141
4.2.1 联合估计140
4.2.2 在线估计140
4.2.3 存在的局限性140-141
4.3 属性粒度对认知诊断分类的影响141
4.3.1 属性粒度与认知诊断分类141
4.3.2 存在的局限性141
4.4 属性间的补偿关系及诊断模型研究141-143
4.4.1 HDINA模型141-142
4.4.2 存在的局限性142-143
第五部分综合结论143-145
参考文献145-153
附录A153-158
附录B158-161
附录C161-164
附录D164-168
附录E168-172
致谢172-173
在读期间公开发表论文（著）及科研情况173-175

【参考文献】

中国期刊全文数据库前1条

1 丁树良;毛萌萌;汪文义;罗芬;;教育认知诊断测验与认知模型一致性的评估[J];心理学报;2012年11期

中国博士学位论文全文数据库前1条

1 杨淑群;基于属性层次结构的FCA及其在认知诊断中的应用研究[D];南京航空航天大学;2009年

本文编号：673787

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/rwkxbs/673787.html

上一篇：大学生自杀行为影响因素及其交互网络模型研究
下一篇：拉亨曼作品中音响组织与结构形态研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|