排序方式: 共有45条查询结果,搜索用时 15 毫秒
21.
本研究在传统0-1属性的基础上, 拓展出可以处理属性多级化的认知诊断模型--PA-rRUM和PA-DINA模型。Monte Carlo模拟研究表明:拓展模型具有较高的属性诊断正确率和参数估计精度, 且参数估计的稳定性较强, 说明拓展模型基本可行, 可以用于实现多级化属性的认知诊断。这弥补了传统0-1化属性认知诊断模型的不足, 具有较好的发展和应用前景|同时本研究还探讨了拓展模型性能及属性多级化下测验Q矩阵的设计。总之, 本研究对于进一步拓展认知诊断在实践中的应用提供了重要的方法和技术支持。 相似文献
22.
在认知诊断评估实践中,属性层级合理性的验证非常重要,而现有指标仅停留在0-1计分测验,无法适应考试形式和评分方式多样化的实践需求。研究将0-1计分层级一致性指标(MHCI)拓展至多级计分的层级一致性指标(GHCI),模拟和实证研究结果表明:(1)GHCI具有和MHCI相同的本质含义,考虑了父项目和子项目得分的多种可能性,从而将MHCI纳入GHCI体系;(2)在多级或混合计分情境,MHCI会有信息损失,容易发生低估,且易受转换比例的影响;(3)GHCI在模拟和实践情境均具较好的适宜性,拟合截断值的设置可依属性层级而定。 相似文献
23.
贝叶斯网模型提供了一种方便和直观的框架结构来表示变量间的关系,非常适合在诊断测验中对教育评估的内容进行建模。本研究将两种贝叶斯网分类模型与序列多级计分诊断模型S-GDINA进行综合比较。考察两种贝叶斯网分类模型与S-GDINA在Q矩阵正确界定和包含一定比例(25%、 30%)的错误时,两者对被试的分类性能;并将贝叶斯网分类模型应用到实证数据中,展示贝叶斯网分类模型在实证数据中的分类过程和分类性能。研究结果表明:当Q矩阵由专家正确界定时,朴素贝叶斯分类模型的分类效果与S-GDINA模型相差不大,同样可以达到很好的分类效果,树增广的朴素贝叶斯分类模型的分类性能也能达到良好。实证结果进一步表明,将贝叶斯网分类模型应用于教育测量领域中的诊断分类工具是有其优势和可行的,尤其是当测验数据对于所选用诊断模型的拟合较差、测验的Q矩阵中包含错误或测验数据中包含较多的噪音时。 相似文献
24.
基于GPCM的计算机自适应测验选题策略比较 总被引:1,自引:0,他引:1
选题策略是计算机自适应测验(Computerized Adaptive Testing , CAT)研究的一项重要内容,它的好坏直接关系到考试的信度、效度及考试的安全性。CAT的许多研究与应用,都建立在0-1二级评分模型基础上,对多级评分CAT的选题策略的研究很少报导。目前国内虽已开展了基于GRM的CAT研究,但基于GPCM的CAT的研究尚未见有关报道。本文通过计算机模拟程序,对基于拓广分部评分模型(Generalized Partial Credit Model, GPCM)下的CAT的四种选题策略在多种情况下进行了比较研究。研究结果表明:被试能力呈正态分布时,选题策略的使用效果与项目步骤参数分布有很大的关系。(1)项目步骤参数均服从正态分布时,采用能力与项目步骤参数匹配选题策略效果最佳;(2)项目步骤参数均服从均匀分布时,能力与项目步骤参数平均数匹配选题策略效果最佳 相似文献
25.
本文提出一种多级计分项目下的个人拟合统计量R, 考察它在检测6种常见的异常作答模式(作弊、猜测、随机、粗心、创新作答、混合异常)下的表现, 并与标准化对数似然统计量lzp进行比较。结果表明:(1) 在异常作答覆盖率较低并且异常作答类型为作弊和猜测时, R的检测率显著高于lzp; (2) 随着测验长度和被试异常程度的增加, 两种统计量的检测率都会上升; (3) 在一些条件下, R与lzp检测效果接近。实证数据分析进一步展示了R统计量的使用方法和过程, 结果也表明R统计量具有较好的应用前景。 相似文献
26.
通过实验及理论分析,验证并给出了:1.程度函数a的可靠性θ的取值范围为:1/m≤θ≤1/m∑bkyjp。θ值的大小与可靠性呈反向变化:a的可靠性大,θ值小,a的可靠性小θ值大,一般情况下的θ值,为θ的上界与下界之和的一半;2.采用集值统计模型和一般统计模型处理多级估量法多人次结果,所得到的程度函数平均数几乎相等,而且相关系数高达0.977.非常显著.分组数据计算、单一数据计算或全部数据统一计算的程度函数a及可靠性θ值也都相等.3.一般统计模型处理多级估量法多人次结果所得到的标准差σ,只反映各被试的程度函数之间的变异,与程度函数可靠性无关(相关系数0.0024,非常不显著).如果个人结果中按公式θ=1/m∑ej再计算可靠性θ值,然后再求其平均数及标准差,还可进一步了解可靠性θ值的变异情况. 相似文献
27.
多级估量法在大学生职业价值观研究中的应用 总被引:6,自引:0,他引:6
用模糊数学中的多级估量法对532名大学生的职业价值观进行调查研究,结论如下(1)当代大学生的职业价值观呈现出多元化的特点,在多元化的职业价值体系中,"充分发挥能力"、创造性"、"收入"处于前三位,"地位、名声"、"成长为领导者"、"冒险",处于后三位.(2)用多级估量法不但可以得到用排序法得到的信息,而且可以得到用排序法得不到的更加细致的信息.(3)就整体而言,大学生的职业价值观不因其所在的学校、所学的专业科类、是否临近毕业、性别等因素的不同而不同.就部分而言,上述四大因素都对大学生的某些职业价值项目有一定的影响. 相似文献
28.
认知诊断计算机化自适应测验(Cognitive Diagnosis Computerized Adaptive Testing, CD-CAT)是认知诊断评估和计算机化自适应测验两者的结合,兼具认知诊断和自适应测验的特点。目前,针对CD-CAT的研究几乎都集中在0-1二级计分的数据。然而,在教育和心理评估的实际应用中,存在大量的多级计分的数据。因此,本研究探讨了多级计分CD-CAT(Polytomous CD-CAT, PCD-CAT)的实现技术,并提出了2种新的选题方法。通过模拟实验比较了新选题方法和传统选题方法在PCD-CAT的效果,结果表明:在定长PCD-CAT条件下,2种新选题方法的模式分类准确率是最高的,而在非定长PCD-CAT条件下,2种新方法的测验效率也是最高的。 相似文献
29.
本研究在传统CD-CAT的基础上进行拓展, 开发设计了可以处理属性多级化的CD-CAT (记为pCD-CAT), 而且当测验所有属性的水平数Lk = 2时则pCD-CAT可简化为CD-CAT, 因此传统CD-CAT是本研究设计开发pCD-CAT的一个特例。Monte Carlo模拟实验结果表明:基于属性多级化框架下设计的pCD-CAT具有较好的诊断正确率、题库安全性和较高的测验效率, 弥补了传统CD-CAT不足; 当属性多级化时, 若采用传统CD-CAT方法, 则诊断正确率很不理想(属性模式判准不到30%), 表明传统CD-CAT在属性多级化测验情景时不适宜, 而本文设计的pCD-CAT是一种不错的选择(属性模式判准高达80%以上)。总之, 本研究对于进一步拓展CD-CAT在实践中的应用提供了新方法和新技术支持。 相似文献
30.
试题难度、试题考查重要性程度加权是多级记分试题的两个基本属性, 因而在IRT项目特征函数中需用不同参数来表示。以往多级记分模型用多个难度参数来描述多级记分试题的难度, 不能有效的表达多级记分试题的分数权重作用。从多级记分试题的分数加权作用角度, 本文提出Logistic加权模型并论述了理论构建思想。在Logistic加权模型下对项目参数估计的EM算法进行推导并编写了相应的参数估计程序。在Logistic加权模型下进行测验模拟, 发现项目参数估计的模拟返真性能良好。 相似文献