首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
分类一致性和分类准确性是衡量考试信效度的两个重要评价指标。基于项目反应理论下分类一致性和分类准确性指标,提出认知诊断测验的属性(模式)分类一致性和分类准确性指标,讨论分类一致性指标、分类准确性指标与属性估计误差之间的关系,并由属性掌握概率的估计标准误推导出属性分类准确性的上限。结果显示:属性(模式)分类一致性可准确估计重测一致性;分类准确性指标计算简单,可准确估计认知诊断测验的判准率。  相似文献   

2.
分类一致性和准确性是认知诊断评估中的重要指标,前者反映信度问题,后者反映效度问题。已有研究提出的指标均是基于二分属性,而多分属性的后验概率分布和属性边际概率分布均不同于二分属性,需要构建新指标来衡量多分属性情景下的信效度。本研究基于二分思想,构建出二元式信息指标用于计算多分属性测验中的信效度,并通过实验设计考察了新指标在多种影响因素中的表现,验证了新指标的有效性。最后,为多分属性诊断测验的编制提供了建议,并提出未来研究方向。  相似文献   

3.
汪文义  宋丽红  丁树良 《心理学报》2016,48(12):1612-1624
介绍多维项目反应理论模型下分类准确性和分类一致性指标, 采用蒙特卡罗方法实现复杂决策规则下指标计算, 并从数学上证明分类准确性指标两类估计量在均匀先验和相同决策规则条件下依概率收敛于同一真值。研究结果表明:分类准确性指标可以比较准确地评价分类结果的准确性; 分类一致性指标可以较好地评价分类结果的重测一致性; 在一定条件下, 基于能力量尺的指标优于基于原始总分的指标; 纵使测验维度增加, 估计精度仍比较好; 随着测验长度和维度间相关增加, 分类准确性和分类一致性更高。指标可以用来评价标准参照测验或计算机分类测验的多种决策规则下分类信度和效度。  相似文献   

4.
摘要:引入了三种可以估计认知诊断属性分类一致性信度置信区间的方法:Bootstrap法、平行测验法和平行测验配对法。用模拟研究验证和比较了这三种方法的表现,结果发现,平行测验法和Bootstrap法在被试量比较少、题目数量比较少的情况下,估计的标准误和置信区间较接近,但是随着被试量的增加,Bootstrap法的估计精度提高较快,在被试量大和题目数量较多时基本接近平行测验配对法的结果。Bootstrap法的所需时间最少,平行测验配对法计算过程复杂且用时较长,推荐用Bootstrap法估计认知诊断属性分类一致性信度的置信区间。  相似文献   

5.
测验信度是衡量测验质量的一个重要指标,认知诊断评估中同样需要重视信度问题。现有认知诊断中计算信度的方法均有一个前提假设:被试在前后两次测验的后验概率分布和边际概率完全相同。该假设过强,未考虑两次测验间存在的随机误差。基于Bootstrap抽样,提出了两类属性信度和模式信度的指标,分别是积差相关法和修正的一致性法。通过模拟研究比较了新方法和现有方法在不同属性个数、属性间相关性和题目数量下的表现,并基于英语能力认证考试ECPE和分数减法的实证数据验证了新方法的可行性。最后,对信度估计的影响因素进行了讨论。  相似文献   

6.
Q矩阵是认知诊断评价的基础和核心要素, 它反映了测验的构念和内容设计, 直接影响着测验诊断分类的效果。本文采用Monte Carlo模拟, 研究了6种属性层级关系下, 不同的Q矩阵设计对于认知诊断效果的影响。用模式判准率的均值和标准差分别从分类准确性和稳定性的角度来评价诊断效果。实验结果表明:(1) 不同属性层级关系下, 分类准确性会随着测验长度的增加而提高, 但当测验长度增加到一定程度时, 会出现“天花板效应”; (2) Q矩阵中R*的个数(NR*)会影响测验的分类准确性及稳定性:NR*越大, 测验的分类稳定性越高, 当测验长度为属性个数的整数倍, 且NR*为测验长度相对属性个数的最大奇数倍时分类准确性最高; (3) Q矩阵中除R*以外的项目考察的属性个数会随着属性层级关系的不同对测验的分类准确性和稳定性产生不同的影响。根据实验结果, 本研究提出了进行诊断评价时Q矩阵优化设计的一些建议。  相似文献   

7.
心理与教育认知诊断测验中常常存在一个题目包含多种解题策略的情况,参数化的多策略认知诊断模型需要足够的样本量以保证模型参数估计的准确性,而学校和班级规模的诊断测验难以满足参数化模型的样本量要求。本研究开发了一种新的简洁高效的非参数化多策略认知诊断分类(NCNPMSC)方法,该方法不需要进行参数估计,即使样本量为1人也能实现诊断分类。本文通过两个模拟研究和实证数据分析证明了NCNPMSC方法进行多策略诊断分类的合理性和可行性,为多策略认知诊断提供了新的方法支持。  相似文献   

8.
在认知诊断计算机化自适应测验(CD-CAT)中, 被试对每个属性的掌握概率更直接地反映了被试能力的当前估计值。因此, 基于被试的属性掌握概率来构建选题策略, 选择最能改变被试属性掌握概率的题目作为下一个测验项目, 这应该是一个值得尝试的方案。本文借鉴已有相关研究的数据生成模式进行探索, 模拟实验结果表明:假设属性间相互独立,在定长(长度为16)、变长(长度为16或后验属性掌握模式概率达到0.8)以及短测验(长度分别为4、6、8、10)的情况下, 基于属性掌握概率的选题策略PPWKL和PHKL有较好的分类准确率, 在题目曝光率, 题库使用均匀性等方面也有较好的表现; 与研究较多的PWKL、HKL等策略相比, 也略有优势; 当属性间存在不同程度的相关时, 在定长、变长以及较短的测验条件下, 基于PHKL和MI的测验对知识状态估计精度较好, 基于PPWKL和PHKL的测验综合表现占优。  相似文献   

9.
詹沛达  边玉芳 《心理科学》2015,(5):1230-1238
当前认知诊断测验的主要目的是对被试进行合理分类,进而采用类别变量去描述被试对某技能或知识(即认知属性)的掌握情况,但该粗糙的分类方法不能精细地区分不同被试之间的差异。对此,采用掌握概率这一连续变量去描述被试对某认知属性的掌握情况是一种值得尝试的做法。本文首先基于高阶潜在特质(简称"潜质")模型给出了认知属性掌握概率的量化定义,之后与多成分潜质模型相结合提出了概率性输入,噪音"与"门(PINA)模型;其次,采用MCMC算法实现了对PINA的参数估计,结果表明参数估计程序对各参数的估计返真性均较好;最后,以ECPE数据为例来说明PINA在实际测验分析中具有可行性。  相似文献   

10.
认知诊断模型选择是认知诊断评估中重要研究问题之一。在实际应用中实践者并不知道真正拟合数据的模型,通常会用模型拟合指标检验模型与数据的拟合程度。从测量结果质量来看,除保证模型与数据拟合之外,还需要重点评价模型诊断结果的信度和效度等。考虑到以往研究大都采用基于信息量的拟合指标去判定模型与数据的匹配性,本研究提出综合考虑模型拟合指标与信度指标用于模型选择或评价模型误设。考虑实验因素为真实模型或分析模型(DINA模型、G-DINA模型、R-RUM模型)、样本量、题量和属性个数,在五因素(3×3×2×2×2)实验设计条件下,比较Bootstrap区间估计的属性分类一致性信度平均数与标准误和常用的拟合统计量-2LL、AIC、BIC对正确模型的选择率。结果表明:-2LL在题目数量多的情况下表现较好,而AIC、BIC在被试量较大的情况下表现较好,在不同的研究条件下,-2LL、AIC、BIC的模型选择率很不稳定,而用Bootstrap法估计的属性分类一致性信度平均数和标准误在不同研究条件的模型选择率较稳定,总体表现较好。  相似文献   

11.
使用模拟研究方法比较了以往研究中提出的基于观察信息矩阵、三明治矩阵的Wald(分别表示为W_Obs、W_Sw)、似然比(Likelihood Ratio)统计量以及新提出的基于经验交叉相乘信息矩阵的Wald统计量(W_XPD)在模型——数据失拟条件下进行项目水平上模型比较时的表现。结果显示:(1)W_Sw的一类错误控制率有很强的健壮性。(2)W_XPD在Q矩阵错误设定的大多数条件下的表现优于W_Sw。结论:模型—数据拟合良好时可以使用W_Sw进行项目水平上的模型比较,当模型与数据失拟时W_XPD可能是更好的选择。  相似文献   

12.
使用模拟研究方法比较了以往研究中提出的基于观察信息矩阵、三明治矩阵的Wald(分别表示为W_Obs、W_Sw)、似然比(Likelihood Ratio)统计量以及新提出的基于经验交叉相乘信息矩阵的Wald统计量(W_XPD)在模型——数据失拟条件下进行项目水平上模型比较时的表现。结果显示:(1)W_Sw的一类错误控制率有很强的健壮性。(2)W_XPD在Q矩阵错误设定的大多数条件下的表现优于W_Sw。结论:模型—数据拟合良好时可以使用W_Sw进行项目水平上的模型比较,当模型与数据失拟时W_XPD可能是更好的选择。  相似文献   

13.
题目属性的定义是实施认知诊断评价的关键步骤, 通过有丰富经验的领域专家对题目的属性进行定义是当前的主要方法, 然而该方法受到许多主观经验因素的影响。寻找客观的题目属性定义或验证方法可以为主观定义过程提供策略支持或对结果进行改进, 因此已经引起研究者们的关注。本研究构建了一种简单高效的题目属性定义方法, 研究使用似然比D2统计量从作答数据中估计题目属性的方法, 实现属性掌握模式、题目参数和题目属性向量的联合估计。模拟研究结果表明, 使用似然比D2统计量可以有效地识别题目的属性向量, 该方法一方面可以实现新编制题目属性向量的在线估计, 另一方面可以验证已经定义的题目属性向量的准确性。  相似文献   

14.
Q矩阵标定是实施认知诊断评估的前提,已有Q矩阵修正方法并不太适合测验中已知属性向量的题目数较少的情形。根据拓展Q矩阵理论中可达阵R列与简化Q阵列存在布尔“或”关系,在一定认知假设下,率先提出可达阵R与简化Q阵的潜在反应列存在布尔“与”关系,并由此提出基于可达阵的Q矩阵标定方法。研究显示:在已知一个可达阵下,当可达阵项目的猜测或失误参数在.20以下且待标定项目的项目参数约在.30以下时,新方法所得Q矩阵元素返真率基本在.90以上,并且真实Q矩阵与估计Q矩阵下被试分类准确率差异很小;对于含5个属性的独立结构,新方法要求的随机样本的样本量较小;实证研究也印证了模拟研究的结论。新方法只需专家标定少量题目的Q矩阵,即已经标定的Q矩阵对应属性层级结构的可达阵。  相似文献   

15.
多分属性比传统的二分属性提供更多更详细的诊断反馈信息, 符合对知识技能的多水平要求, 具有较好的应用前景。本文首先介绍了多分属性和多分Q矩阵的概念; 之后重参数化了3个分别满足连接、分离和补偿缩合规则的多分属性诊断分类模型并研究了其判准率影响因素, 结果发现它们的判准率(1)均随多分属性数量的增加而降低, 建议实际使用中不宜高于5个; (2)均随多分属性的最高水平数增加而降低, 建议实际使用中不宜高于4水平; (3)均随多分属性间统计相关性增加而增加, 但影响不大; (4)受多分属性层级结构的影响较大; (4)受被试量影响不大; (5)均随题目数量增加而增加且影响较大。最后, 针对“多分属性与多级评分的关系”和“多分属性与二分属性之间的关系”这两个问题进行了讨论。以期为实证研究者提供相关的理论支持和使用建议。  相似文献   

16.
Cognitive diagnosis models (CDMs) estimate student ability profiles using latent attributes. Model fit to the data needs to be ascertained in order to determine whether inferences from CDMs are valid. This study investigated the usefulness of some popular model fit statistics to detect CDM fit including relative fit indices (AIC, BIC, and CAIC), and absolute fit indices (RMSEA2, ABS(fcor) and MAX2jj)). These fit indices were assessed under different CDM settings with respect to Q-matrix misspecification and CDM misspecification. Results showed that relative fit indices selected the correct DINA model most of the times and selected the correct G-DINA model well across most conditions. Absolute fit indices rejected the true DINA model if the Q-matrix was misspecified in any way. Absolute fit indices rejected the true G-DINA model whenever the Q-matrix was under-specified. RMSEA2 could be artificially low when the Q-matrix was over-specified.  相似文献   

17.
GDINA是一个饱和认知诊断模型(Cognitive Diagnosis Models, CDM),Wald检验被用于在题目水平上检验GDINA是否可以被简化模型(如DINA, DINO, ACDM和RRUM)替代,并为测验的每一个题目选择一个最恰当的CDM(简称混合CDM)。选择合适的CDM是进行诊断评估的一个关键步骤,通过Monte Carlo 模拟实验,比较了不同的测验情境下,GDINA、简化CDM和混合CDM在测验整体拟合指标、模式判准率和项目参数估计的返真性等效果,研究发现混合模型的整体表现是最好的,其次是GDINA,最后是简化CDM。  相似文献   

18.
基于“为学习而测评”理念,以促进学生学习为目的,本研究进行了基于认知诊断测评的个性化补救教学效果分析。首先,以“一元一次方程”章节为例,编制两份平行的认知诊断测评试卷。然后,通过对不同地区(城市和农村)七年级学生的施测与分析,发现城市学生对属性的掌握情况优于农村学生对属性的掌握情况。之后,选择农村学生为补救对象,通过对比基于认知诊断测评和传统教学两种个性化补救教学的效果,发现两种补救教学方法均能提高学习成绩,但前者的补救效果显著优于后者的。总之,本研究结果表明采用基于认知诊断测评的个性化补救教学能够有效促进学生学习,为实践者应用认知诊断测评促进学生学习提供了实践依据。  相似文献   

19.
当前认知诊断领域还缺少对包含题组的测验进行诊断分析的研究, 即已开发的认知诊断模型无法合理有效地处理含有题组效应的测验数据, 且已开发的题组反应模型也不具有对被试知识结构或认知过程进行诊断的功能。针对该问题, 本文尝试性地将多维题组效应向量参数引入线性Logistic模型中, 同时开发了属性间具有补偿作用的和属性间具有非补偿作用的多维题组效应认知诊断模型。模拟研究结果显示新模型合理有效, 与线性Logistic模型和DINA模型对比研究后表明:(1)作答数据含有题组效应时, 忽略题组效应会导致项目参数的偏差估计并降低对目标属性的判准率; (2)新模型更具普适性, 即便当作答数据不存在题组效应时, 采用新模型进行测验分析亦能得到很好的项目参数估计结果且不影响对目标属性的判准率。整体来看, 新模型既具有认知诊断功能又可有效处理题组效应。  相似文献   

20.
Q矩阵是认知诊断测验的重要组成部分之一,围绕Q矩阵构建的诊断模型对Q矩阵中包含的错误较敏感。贝叶斯网分类模型是基于网络结点之间的关系构建的模型,将朴素贝叶斯网作为诊断模型,与DINA模型进行比较。模拟实验结果表明:Q矩阵中是否包含可达矩阵和错误界定的项目数量对DINA模型影响较大,对贝叶斯网模型影响较小;项目数量对DINA和贝叶斯网模型影响都较大;样本大小对贝叶斯网模型影响较大,对DINA模型影响较小。模拟研究结果显示,当Q矩阵中不包含可达阵、包含5个以上错误项目或样本数较大时,贝叶斯网分类模型优于DINA模型;而当Q矩阵中包含可达阵和5个(以下)错误项目时,DINA模型优于贝叶斯分类模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号