共查询到19条相似文献,搜索用时 78 毫秒
1.
CTT与IRT方法对人格测验结果处理的比较研究 总被引:2,自引:1,他引:2
为了说明使用经典测量理论(CTT)方法和项目反应理论(IRT)方法计算出的人格测验结果的差异,本研究使用IRT和CTT这两种方法分别计算出模拟人格测验和实际人格测验的测验结果,并对此进行比较。研究表明,两种不同的方法得到的测验结果之间平均有0.11个标准差以上的差异。进一步研究发现,在对测验结果进行分析时,IRT方法比CTT方法更为有效。 相似文献
2.
概化理论(GT)和项目反应理论(IRT)从两个不同的方向发展了经典测量理论, GT和IRT中的多面Rasch测量模型(MFRM)在主观评分中都可以用来估计评分中各变异来源对变异的贡献, 对测评的信度进行估计, 提出测评改进意见。12名运动员参加了2008北京奥运会男子10米跳台跳水决赛, 比赛共6个回合, 7名裁判独立对他们在各个回合的表现进行打分。GT和MFRM比较一致地认为运动员自身、回合、运动员与回合的交互效应是运动员得分的重要变异来源, 而裁判员对运动员得分差异的贡献不显著。MFRM同时还估计出难度系数是影响男子跳台跳水成绩的重要变异来源, 在评分等级6.5附近存在步校准错乱, 得出的运动员成绩排序与2008奥运实际排序有所不同。在GT中难度系数作为隐藏侧面, 其效应未能分离出来。GT和MFRM从两个不同的方面给测量提供改进意见: GT发现可以通过增加回合数来提高g系数, 而增加裁判数对其影响不大。MFRM给出各侧面的要素(如某裁判、运动员等)的估计值及其标准误, 它给出的诊断性拟合统计也有助于甄别异常得分或评分模式。 相似文献
3.
本研究以4岁~5岁儿童认知能力测验为例,在IRT框架下探讨了如何进行追踪数据的测量不变性分析。分析模型采用项目间多维项目反应理论模型(between-item MIRT model)和项目内(within-item MIRT model)多维two-tier model,被试为来自全国的882名48个月的儿童,工具为自编4岁~5岁儿童认知能力测验。经测验水平 分析和项目水平分析,结果表明:(1)本文对追踪数据的测量不变性分析方法合理有效; (2)该测验在两个时间点上满足部分测量不变性要求,测验的潜在结构稳定; (3)“方位题”的区分度和难度参数都发生变化,另有4题难度参数出现浮动; (4)儿童在4岁~5岁期间认知能力总体呈快速发展趋势,能力增长显著。 相似文献
4.
5.
6.
Likert量表分析中不同IRT模型的有效性 总被引:3,自引:1,他引:3
5级Likert量表可直接分析,也可以转化为3级评分,或转化为2级评分。前二者可以采用等级IRT模型,后者可以采用2级IRT模型。研究表明2级IRT模型中的2参数模型是最适合的模型。多级评分模型与数据拟合也很好,而且等级越多测量精度越大。 相似文献
7.
蒙特卡洛方法在近几年内已成为研究题目反应理论的一个重要工具,它的研究设计也民为蒙特卡洛方法在IRT中应用的一个新的研究方向。 相似文献
8.
项目反应理论的分数分布的预测作用 总被引:1,自引:0,他引:1
1引言在心理和教育测量的实践过程中,测试者常常会从已实施过的测验项目里根据需要挑选一组项目重新组成新的测验。如果测试者事先能够通过一定的方法预测到关于这组测验分数的大致信息,这对编制不同要求的测验、检查教学效果以及评价学生能力有很大的帮助。在项目反应理论(IRT)中,预测分数的一般做法是通过测验特性函数来计算的(HambletomandSwaminathan,1985)。但是这样计算的结果只能知道在能力参数θ的某个水平上的分数.从本质上来说这是属于条件概率的点估计。为了了解在能力θ的整个范围里的测验分数的变化趋向,本文利用… 相似文献
9.
对IRT的双参数Logistic模型(2PLM)中未知参数估计问题,给出了一个新的估计方法――最小化χ2/EM估计。新方法在充分考虑项目反应理论(IRT)与经典测量理论(CTT)之间的差异的前提下,从统计计算的角度改进了Berkson的最小化χ2估计,取消了Berkson实施最小化χ2估计时需要已知能力参数的不合实际的前提,扩大了应用范围。实验结果表明新方法能力参数的估计结果与BILOG相比,精确度要高,且当样本容量超过2000时,项目参数的估计结果也优于BILOG。实验还表明新方法稳健性好 相似文献
10.
国家公务员结构化面试中评委偏差的IRT分析 总被引:7,自引:1,他引:6
使用项目反应理论(IRT)中的多面Rasch模型,对两组共12名评委在国家公务员结构化面试中的评委偏差进行了分析。提出并验证了两种评委偏差:评委之间在宽严程度上的差异和评委自身的一致性问题。结果发现:不同评委之间在宽严程度上差异显著,且不同评委评定行为的跨考生、跨维度、跨性别、跨时间的自身一致性也存在差异。研究表明,这种进入到评委个体层次的分析突破了经典测量理论(CTT)定位于评委群体进行分析的局限,针对每位评委的偏差行为提供了详细具体的诊断信息,从而为评委的针对性培训和评委库的建立提供了现代测量学的新方法 相似文献
11.
本研究通过高中英语阅读测验实测数据,对比分析双参数逻辑斯蒂克模型 (2PL-IRT)和加入不同数量题组的双参数逻辑斯蒂克模型 (2PL-TRT), 探究题组数量对参数估计及模型拟合的影响。结果表明:(1) 2PL-IRT模型对能力介于-1.50到0.50的被试,能力参数估计偏差较大;(2)将题组效应大于0.50的题组作为局部独立题目纳入模型,会导致部分题目区分度参数的低估和大部分题目难度参数的高估;(3)题组效应越大,将其当作局部独立题目纳入模型估计项目参数的偏差越大。 相似文献
12.
IRT中的计量模型较多,不同计量模型适合不同特点的数据资料,实际工作者应根据实际情况选择适当的IRT模型来分析数据。我国是个考试、测评大国,测评的题型丰富多样,在实际应用IRT时,一个模型往往很难反应所有数据资料本身的特点,这时可考虑应用多个IRT模型(即“混合模型”)来分析,以达到对数据的最佳拟合。本文对混合模型的思想方法及原理、参数估计的实现、以及模型性能进行了研究,发现:(1)本文自主开发的混合模型参数估计程序Mix_Tu具有较高的返真性,且与国际知名测量软件Parscale相当。(2)在“项目异常”情况下,Mix_Tu程序对参数b和c的估计受数据异常程度的影响要大于Parscale程序,而对参数a的估计受数据异常程度的影响要小于Parscale程序,而在参数theta上两个程序相当。(3)在“被试异常”情况下,Mix_Tu程序对所有参数的估计受数据异常程度的影响均要小于Parscale程序,Mix_Tu程序表现的更为稳健。 相似文献
13.
大学英语四、六级考试分数等值研究 总被引:5,自引:0,他引:5
对现有的大学英语四、六级考试分数等值模式中存在的若干问题进行了深入的分析,并提出了新的解决方案——一个基于铆题设计和两参数IRT模型的解决方案。主要包括:(1)用两参数逻辑斯蒂模型替代原来的Rasch模型,以改进题目模型的适合性;(2)用共同题目的等值设计取代原来的共同被试等值设计,解决共同被试等值设计中,等值考生的动机水平难以控制的难题;(3)建立专用的等值用题库,并且一次性完成其中铆题的预测和参数标定工作,以解决原来等值模式中存在的误差累积问题。同时,由于铆题的保密工作难度较小,因此,等值专用题库对保证等值结果的可靠性也具有重大意义;(4)本文还对新的分数等值方案进行了真实的考试数据等值计算实验,并得到了一个令人满意的分数等值结果。 相似文献
14.
等级反应模型项目特征曲线法等值研究 总被引:2,自引:0,他引:2
主、客观题并用的测验建项目反应理论题库需作多级模型项目参数等值,本研究推演了等级反应模型下项目特征曲线等值方法并在实际等值试验中获得成功. 相似文献
15.
作者简要介绍了多水平项目反应模型,对多水平项目反应理论与通常项目反应理论之间的关系进行了探讨,得到了多水平项目反应模型参数与通常项目反应模型参数之间的关系,并讨论了多水平项目反应模型的推广模型。通过一个实际例子,用多水平项目反应模型对测验中项目的特征进行分析;检验个体水平和组水平预测变量对能力参数的影响;对项目功能差异进行分析。最后文章就多水平项目反应理论模型的优势与不足进行了讨论 相似文献
16.
项目反应理论等级反应模型项目信息量 总被引:6,自引:1,他引:6
信息函数作为项目反应理论中的一个重要概念,在进行项目和测验分析的工作中,以及在指导测验编制的工作中,有着非常重要的应用价值。信息函数的应用在计算机化自适应测验中更是重中之重,也受到最大关注。然而,关于多级记分项目信息函数特性的研究还比较少。本研究模拟了被试特质水平参数数据和项目参数数据,其中被试特质水平参数生成了121个被试特质水平参数点,项目参数生成了4批不同区分度参数数据,每批数据有126个不同难度等级参数组合模式的项目,每个项目有5个难度等级。通过数据分析后发现,等级反应模型项目提供最大信息量所对应的被试特质水平,是与该项目几个相互临近的难度等级组相适应,既不是只与其中一个难度等级对应,也不一定是与所有难度等级对应。本研究称这种规律为“临近难度等级占优”。这个发现无疑对测验质量分析和测验编制工作,包括计算机化自适应测验编制,具有重要的指导意义 相似文献
17.
将基于项目反应理论的计算机自适应测验运用于特质焦虑量表,考察这一测验形式在人格测量中所具有的特性.收集特质焦虑量表真实纸笔作答数据,选用合适的心理测量模型,模拟计算机自适应测验.结果表明:相对纸笔测验而言,计算机自适应测验的测试效率更高、对被试的分辨力更强、结果更直观.计算机自适应测验在人格测量中的实践值得进一步探索. 相似文献
18.
适应性测验作为一种测验形式,与传统的纸笔测验形式相比,具有省时、高效等很多优越性。测验应该适合于被试的理念最初可见于比内的智力测验。上世纪七十年代以来,适应性测验的研究从经典测量理论阶段发展到项目反应理论阶段,经历了从二阶段、三阶段、多阶段测验、固定分支测验和分层适应性测验的发展,到现在的计算机化适应性测验研究。随着项目反应理论和计算机技术的发展,计算机化适应性测验已经在教育和心理测验领域中得到广泛应用。目前对它的研究日益深入,主要有项目克隆、项目曝光、多维适应性测验、被试诊断、人格适应性测验等问题。 相似文献