排序方式: 共有52条查询结果,搜索用时 218 毫秒
1.
2.
本研究开发了两种新的适用于多级评分项目的多维计算机化自适应测验(PMCAT)的选题策略——修正的连续熵(RCEM)和修正的后验期望KL信息(MKB)方法,并与以往PMCAT的选题策略进行了对比研究。Monte Carlo实验结果表明:两种新开发的选题策略比原方法估计精度更高,并且RCEM方法在所有选题策略中曝光率最低。新开发的选题策略具有较理想的估计精度和曝光控制效果,为PMCAT在实践中的应用提供了新的方法支持。 相似文献
3.
本文深入探讨了手机依赖的新的测量方式即计算机化自适应测量,并同时与原手机依赖的纸笔测验量表进行了比较,以探讨在相同测量长度下,新测量方式能在多大程度上提升对手机依赖的测量精度及测量信度。为此本文共进行了两项研究:研究1开发构建了手机依赖的计算机化自适应测量(CAT-MPD),并探讨了其测量的特征与性能。研究2通过对真实数据的模拟CAT测试,以CAT-MPD来源的纸笔测验量表为比较对象,考察CAT-MPD对原纸笔量表测量精度及测量信度的提升幅度。研究结果表明:CAT-MPD具有较理想的测量精度和信度,而且能有效减少被试所测项目量;同时,在同等条件下,CAT-MPD不论是在测量的精度还是测量的信度,均大幅优于手机依赖的纸笔测验量表。总之,本文为手机依赖的实际测量提供了一种新的技术支持。 相似文献
4.
基于分部评分模型的思路, 本文提出了一般化的分部评分认知诊断模型(General Partial Credit Diagnostic Model, GPCDM), 与国际上已有的基于分部评分模型思路的多级评分模型GDM (von Davier, 2008 )和PC-DINA (de la Torre, 2012 )相比, GPCDM的Q矩阵定义更加灵活, 项目参数的约束条件更少。Monte Carlo实验研究表明, GPCDM模型的参数估计精度指标RMSE介于[0.015, 0.043], 表明估计精度尚可; TIMSS (2007)实证数据应用研究表明, 与GDM和PC-DINA模型相比, GPCDM与该数据的拟合度更好, 并且使用GPCDM分析该数据的诊断效果也更优。总之, 本研究提供了一种约束条件更少、功能更为强大的多级评分认知诊断模型。 相似文献
5.
6.
本文基于DINO模型开发出一种分离型的多级评分认知诊断模型(P-DINO模型),并采用Monte Carlo模拟与实证研究相结合的范式,探讨了新模型的性能与有效性。结果表明:(1)P-DINO模型参数估计精度较好,参数估计的稳健性较强。(2)采用MCMC算法可以实现该模型的参数估计,估计结果较理想。(3)测验长度的增加能有效提高模型的判准率,被试人数的增加对判准率的提高相对较小,属性个数的增加会降低判准率。(4)在抑郁症状评估中,P-DINO模型的表现要优于DINO模型与传统的抑郁症状评估。 相似文献
7.
传统上,群体评估都是以个体的评估结果的平均值为基础进行的。而群体水平IRT理论则可以避开对个体的评估,直接实现对群体的评估,它具有许多传统方法难以企及的优点。本文将群体水平IRT模型应用于2007年某省高考英语阅读理解的410所学校的能力评估,评估结果发现:410所学校的英语阅读理解能力几乎都在[-1,1]区间内,没有能力极高或极低的学校。对这些学校而言,测验中所有项目的难度较易,区分度适中。所有的评估结果与IRT模型的评估结果在 的水平上相关显著,表明GIRT模型在实践中是可以选择的一种群体评估方法。 相似文献
8.
IRT中的计量模型较多,不同计量模型适合不同特点的数据资料,实际工作者应根据实际情况选择适当的IRT模型来分析数据。我国是个考试、测评大国,测评的题型丰富多样,在实际应用IRT时,一个模型往往很难反应所有数据资料本身的特点,这时可考虑应用多个IRT模型(即“混合模型”)来分析,以达到对数据的最佳拟合。本文对混合模型的思想方法及原理、参数估计的实现、以及模型性能进行了研究,发现:(1)本文自主开发的混合模型参数估计程序Mix_Tu具有较高的返真性,且与国际知名测量软件Parscale相当。(2)在“项目异常”情况下,Mix_Tu程序对参数b和c的估计受数据异常程度的影响要大于Parscale程序,而对参数a的估计受数据异常程度的影响要小于Parscale程序,而在参数theta上两个程序相当。(3)在“被试异常”情况下,Mix_Tu程序对所有参数的估计受数据异常程度的影响均要小于Parscale程序,Mix_Tu程序表现的更为稳健。 相似文献
9.
本研究介绍并引进了现代测量理论中的前沿技术—— 多维项目反应理论, 采用MCMC算法实现了其参数估计; 并将MIRT应用于瑞文高级推理测验, 以探讨MIRT在心理测验中的具体应用。研究结果表明:(1)本研究自主编制的MIRT参数估计程序基本可行, 其估计的精度与国外研究结论相当甚至更好。(2)在测验维度和样本容量两因素完全随机实验设计下(2×3), 随着被试和题目样本容量的增加, MIRT参数估计的精度越高且估计的稳定性越强; 但随着测验维度的增加, MIRT参数估计精度和稳定性均随之降低。(3)MIRT对心理测验的分析比UIRT能提供更为精确和细致的信息。它对心理测验的编制、开发及评价具有重要的指导和参考价值, 值得引进及借鉴。 相似文献
10.
本研究对多个测验Q矩阵的相对合理性的比较与选用开展研究,采用Monte Carlo模拟与实证研究相结合的范式,探讨R_square、HCI、-2LL、AIC、BIC、residual、ABS_residual及本研究新开发的BIC2等八项指标在测验Q矩阵合理性侦查效果及其比较。研究发现:八项指标中,除BIC和BIC2两项指标的对测验Q矩阵相对合理性的平均正确识别率在95%以上,其余指标的平均正确识别率不足90%,整体而言,考虑样本容量及参数个数双重加权的BIC和BIC2两项指标的表现总体上优于其它几项指标;各项指标在不同Q矩阵错误类型下其正确识别率也不尽相同。 相似文献