首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
测验信度是衡量测验质量的一个重要指标,认知诊断评估中同样需要重视信度问题。现有认知诊断中计算信度的方法均有一个前提假设:被试在前后两次测验的后验概率分布和边际概率完全相同。该假设过强,未考虑两次测验间存在的随机误差。基于Bootstrap抽样,提出了两类属性信度和模式信度的指标,分别是积差相关法和修正的一致性法。通过模拟研究比较了新方法和现有方法在不同属性个数、属性间相关性和题目数量下的表现,并基于英语能力认证考试ECPE和分数减法的实证数据验证了新方法的可行性。最后,对信度估计的影响因素进行了讨论。  相似文献   

2.
认知诊断模型选择是认知诊断评估中重要研究问题之一。在实际应用中实践者并不知道真正拟合数据的模型,通常会用模型拟合指标检验模型与数据的拟合程度。从测量结果质量来看,除保证模型与数据拟合之外,还需要重点评价模型诊断结果的信度和效度等。考虑到以往研究大都采用基于信息量的拟合指标去判定模型与数据的匹配性,本研究提出综合考虑模型拟合指标与信度指标用于模型选择或评价模型误设。考虑实验因素为真实模型或分析模型(DINA模型、G-DINA模型、R-RUM模型)、样本量、题量和属性个数,在五因素(3×3×2×2×2)实验设计条件下,比较Bootstrap区间估计的属性分类一致性信度平均数与标准误和常用的拟合统计量-2LL、AIC、BIC对正确模型的选择率。结果表明:-2LL在题目数量多的情况下表现较好,而AIC、BIC在被试量较大的情况下表现较好,在不同的研究条件下,-2LL、AIC、BIC的模型选择率很不稳定,而用Bootstrap法估计的属性分类一致性信度平均数和标准误在不同研究条件的模型选择率较稳定,总体表现较好。  相似文献   

3.
单维测验合成信度三种区间估计的比较   总被引:3,自引:0,他引:3  
叶宝娟  温忠麟 《心理学报》2011,43(4):453-461
已有许多研究建议使用合成信度来估计测验信度, 并报告其置信区间。有三种方法或途径可以计算单维测验合成信度的置信区间, 包括Bootstrap法、Delta法和直接用统计软件(如LISREL)输出的标准误进行计算。本文通过模拟研究进行比较, 发现Delta法与Bootstrap法得到的置信区间相当接近, 但用LISREL输出的标准误计算的与Bootstrap法得到的结果相差很大。推荐用Delta法估计合成信度的置信区间(使用Mplus容易实现), 但不能直接用LISREL输出的标准误来计算。举例说明了如何计算单维测验的合成信度以及用Delta法计算其置信区间。  相似文献   

4.
有两种方法可以估计多维测验合成信度的置信区间:Bootstrap法和Delta法.本文用模拟研究比较这两种方法,结果发现,Delta法与Bootstrap法得到结果的差异很小.因为Bootstrap法得到的是实证结果,通常被认为是真值的反映,而Delta法比Bootstrap法简单得多,所以可以用Delta法估计合成信度的置信区间.举例演示如何计算多维测验的合成信度以及用Delta法计算其置信区间.  相似文献   

5.
非参数认知诊断分类方法非常适合课堂评估,其诊断结果采用0-1形式而缺乏概率化表征,不能精细地区分被试属性掌握程度的差异或变化,还缺乏可用于评价真实测验分类结果的信度和效度指标。要刻画被试属性掌握程度的差异,首要的问题是要为非参数认知诊断方法提供一种可以量化属性掌握概率的方法。针对此问题,基于二项分布和玻尔兹曼分布提出非参数认知诊断方法下诊断结果的概率化表征方法,并用于构建分类准确性和分类一致性指标。模拟研究与实测数据分析结果显示:概率化表征方法与非参数认知诊断方法的分类结果高度一致;概率化表征方法与认知诊断模型所得的属性掌握概率十分接近;概率化表征方法所得的属性(模式)掌握概率可用于计算属性(模式)分类准确性和分类一致性指标,在实际测验情景下可作为信度和效度指标,评价诊断结果的重测一致率和判准率。  相似文献   

6.
为探讨项目功能差异对于认知诊断测验估计准确性的影响,采用模拟研究的方式在3种DIF题目所占比例,3种DIF量下,检测了4种认知诊断测验中存在的DIF对于被试能力估计准确性和题目参数估计准确性的影响。结果发现:(1)DIF对于目标组被试能力估计准确性影响较大;(2)含有DIF的题目所占比例和DIF量增大,都会降低目标组被试能力估计的准确性;(3)非一致性DIF对于被试能力估计准确性的影响大于一致性DIF;(4)只有含有DIF题目的题目参数估计准确性会下降;(5)随着DIF量增大,含有DIF题目的题目参数估计准确性下降增多,但不受含DIF题目所占比例的影响。  相似文献   

7.
诸多研究显示用合成信度可以较好地估计测验信度。文献上对合成信度置信区间估计的研究都假设题目测量误差不相关,而在实证研究中,也会遇到误差相关的情况,此时α系数往往高估测验信度,使用合成信度估计测验信度比较准确。本文给出用Delta法计算一般的单维测验合成信度的标准误公式,此公式无论测验误差是否相关都适用,据此可以计算合成信度的置信区间。通过对600名青少年调查发现,中文版FAD分测验"总的功能"的反向题测验误差存在相关,演示了如何估计此分测验的合成信度及其置信区间。  相似文献   

8.
分类一致性和分类准确性是衡量考试信效度的两个重要评价指标。基于项目反应理论下分类一致性和分类准确性指标,提出认知诊断测验的属性(模式)分类一致性和分类准确性指标,讨论分类一致性指标、分类准确性指标与属性估计误差之间的关系,并由属性掌握概率的估计标准误推导出属性分类准确性的上限。结果显示:属性(模式)分类一致性可准确估计重测一致性;分类准确性指标计算简单,可准确估计认知诊断测验的判准率。  相似文献   

9.
叶宝娟  温忠粦 《心理科学》2012,35(5):1213-1217
大量研究表明,一般情况下用合成信度可以较好地估计测验信度。对于合成信度及其置信区间的估计方法,在单维测验的情形已有不少研究。但罕有研究讨论多维测验合成信度的区间估计方法。本文用Delta法推导出计算多维测验合成信度的标准误公式,进而计算置信区间,并用一个例子说明如何编程估计多维测验合成信度及其置信区间。  相似文献   

10.
当CD-CAT测验需要同时诊断被试的解题策略、认知状态并评估被试的宏观能力时,就需要在选题过程中兼顾这三个测量目标。用两种不同方式将多策略香农熵(MSSHE)指标与Fisher信息量相结合,提出多策略情境中的DWI指标MSDWI)选题法与“先用MSSHE后用Fisher信息量”的两步选题法。基于多策略RRUM模型(MS-RRUM),将这两种方法与随机选题法在不同属性数量条件下进行模拟比较,结果表明:当属性数量为4个或6个时,两步选题法在策略判准率、认知状态判准率和能力估计三个方面都有最佳的效果。  相似文献   

11.
叶宝娟  温忠麟 《心理科学》2013,36(1):216-223
多数情况下,α系数可以用来评价测验信度。诸多研究建议,在报告测验信度的时候应当包括其置信区间。通过蒙特卡洛模拟研究,比较了7种α系数区间估计方法,包括Fisher法、Bonett-02法、Bonett-10法、精确Koning-Franses法、渐近ID法、渐近Koning-Franses法和ADF法。结果发现Bonett-10法和精确Koning-Franses法较好,它们的结果相差很小。这两种方法都比较简单,只需要样本的α值、测验题数、被试人数及F临界值,通过简单的运算便可得到α系数的置信区间。  相似文献   

12.
α系数与测验的同质性   总被引:1,自引:0,他引:1  
刘红云 《心理科学》2008,31(1):185-188,176
本文从α系数与同质性测验、平行测验和基本τ-等价测验间的关系及三种测验间的关系入手,分析了α系数作为测验同质性信度估计的局限性;根据Jreskog给出的信度定义(α系数),讨论了λ系数与α一致性信度、Guttman 下限之间的关系,说明了在测验同质的前提下,λ系数在估计测验内部一致性时与α系数相比的优点.同时用模拟数据的方法就不同情景下测验的结构维度与α系数、Guttman λ2下限和λ系数之间的关系进行了探讨.  相似文献   

13.
在认知诊断计算机化自适应测验(CD-CAT)中, 被试对每个属性的掌握概率更直接地反映了被试能力的当前估计值。因此, 基于被试的属性掌握概率来构建选题策略, 选择最能改变被试属性掌握概率的题目作为下一个测验项目, 这应该是一个值得尝试的方案。本文借鉴已有相关研究的数据生成模式进行探索, 模拟实验结果表明:假设属性间相互独立,在定长(长度为16)、变长(长度为16或后验属性掌握模式概率达到0.8)以及短测验(长度分别为4、6、8、10)的情况下, 基于属性掌握概率的选题策略PPWKL和PHKL有较好的分类准确率, 在题目曝光率, 题库使用均匀性等方面也有较好的表现; 与研究较多的PWKL、HKL等策略相比, 也略有优势; 当属性间存在不同程度的相关时, 在定长、变长以及较短的测验条件下, 基于PHKL和MI的测验对知识状态估计精度较好, 基于PPWKL和PHKL的测验综合表现占优。  相似文献   

14.
认知诊断测验组卷方法对提高被试属性掌握模式的判准率至关重要.Henson和Douglas的组卷方法(2005)得到的认知诊断测验判准率不高,没有考虑属性间的层级关系是重要原因.本文提出一种基于属性层级结构的认知诊断组卷方法:首先根据属性层级结构确定待选项目类集合,其次根据新建构的选题指标确定项目类,然后由属性区分被试的能力确定各项目类中题目的数量,并在测验Q阵中放入可达阵.模拟研究表明:新方法比H&D方法在判准率上有很大的提高;新的选题指标比H&D的指标大大缩短计算时间.  相似文献   

15.
用粗糙集理论进行诊断,不需要估计项目参数、对被试量无要求、诊断速度快;当认知属性个数K不超过5个时,其诊断正确率较DINA模型高;当K5,在有些情况下,诊断正确率较DINA模型略低。总体而言,粗糙集理论可以运用于认知诊断分类,特别适合课堂诊断评估,故值得更加深入的研究。  相似文献   

16.
测验信度估计:从α系数到内部一致性信度   总被引:5,自引:0,他引:5  
温忠麟  叶宝娟 《心理学报》2011,43(7):821-829
沿用经典的测验信度定义, 简介了信度与a 系数的关系以及a系数的局限。为了推荐替代a系数的信度估计方法, 深入讨论了与a 系数关系密切的同质性信度和内部一致性信度。在很一般的条件下, 证明了a 系数和同质性信度都不超过内部一致性信度, 后者不超过测验信度, 说明内部一致性信度比较接近测验信度。总结出一个测验信度分析流程, 说明什么情况下a 系数还有参考价值; 什么情况下a 系数不再适用, 应当使用内部一致性信度(文献上也常称为合成信度)。提供了计算同质性信度和内部一致性信度的计算程序, 一般的应用工作者可以直接套用。  相似文献   

17.
陈孚  辛涛  刘彦楼  刘拓  田伟 《心理科学进展》2016,24(12):1946-1960
认知诊断模型界定了测验题目和所考察属性之间的关系, 通过被试的作答反应获取被试对属性或知识技能的掌握情况。认知诊断模型资料拟合检验可以从项目拟合、模型绝对拟合、模型相对拟合和个人拟合方等方面进行。通过对认知诊断拟合检验方法和统计量的详细介绍和评价, 可为认知诊断实践提供借鉴和参考。未来研究可在更丰富的研究条件下对各统计量的性能进行评价和对比, 完善已有的拟合检验方法, 提出新的拟合统计量。  相似文献   

18.
詹沛达  边玉芳 《心理科学》2015,(5):1230-1238
当前认知诊断测验的主要目的是对被试进行合理分类,进而采用类别变量去描述被试对某技能或知识(即认知属性)的掌握情况,但该粗糙的分类方法不能精细地区分不同被试之间的差异。对此,采用掌握概率这一连续变量去描述被试对某认知属性的掌握情况是一种值得尝试的做法。本文首先基于高阶潜在特质(简称"潜质")模型给出了认知属性掌握概率的量化定义,之后与多成分潜质模型相结合提出了概率性输入,噪音"与"门(PINA)模型;其次,采用MCMC算法实现了对PINA的参数估计,结果表明参数估计程序对各参数的估计返真性均较好;最后,以ECPE数据为例来说明PINA在实际测验分析中具有可行性。  相似文献   

19.
作为认知诊断与计算机化自适应测验相结合的产物, 认知诊断计算机化自适应测验(Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT)是对被试知识状态的自适应。它既有传统CAT所面临的普遍性问题, 也有在认知诊断中遇到的特殊问题:由于认知诊断中涉及属性这一概念, CD-CAT与传统CAT有很大的差别。本文紧紧围绕属性引起的差异, 分别从认知诊断模型、题库建设、起始规则、选题策略、被试知识状态估计和终止规则等几部分详细介绍CD-CAT的研究进展和存在的问题。  相似文献   

20.
宋枝璘  郭磊  郑天鹏 《心理学报》2022,54(4):426-440
数据缺失在测验中经常发生, 认知诊断评估也不例外, 数据缺失会导致诊断结果的偏差。首先, 通过模拟研究在多种实验条件下比较了常用的缺失数据处理方法。结果表明:(1)缺失数据导致估计精确性下降, 随着人数与题目数量减少、缺失率增大、题目质量降低, 所有方法的PCCR均下降, Bias绝对值和RMSE均上升。(2)估计题目参数时, EM法表现最好, 其次是MI, FIML和ZR法表现不稳定。(3)估计被试知识状态时, EM和FIML表现最好, MI和ZR表现不稳定。其次, 在PISA2015实证数据中进一步探索了不同方法的表现。综合模拟和实证研究结果, 推荐选用EM或FIML法进行缺失数据处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号