排序方式: 共有26条查询结果,搜索用时 0 毫秒
11.
Q矩阵是认知诊断测验的重要组成部分之一,围绕Q矩阵构建的诊断模型对Q矩阵中包含的错误较敏感。贝叶斯网分类模型是基于网络结点之间的关系构建的模型,将朴素贝叶斯网作为诊断模型,与DINA模型进行比较。模拟实验结果表明:Q矩阵中是否包含可达矩阵和错误界定的项目数量对DINA模型影响较大,对贝叶斯网模型影响较小;项目数量对DINA和贝叶斯网模型影响都较大;样本大小对贝叶斯网模型影响较大,对DINA模型影响较小。模拟研究结果显示,当Q矩阵中不包含可达阵、包含5个以上错误项目或样本数较大时,贝叶斯网分类模型优于DINA模型;而当Q矩阵中包含可达阵和5个(以下)错误项目时,DINA模型优于贝叶斯分类模型。 相似文献
12.
Q矩阵是认知诊断评价的基础和核心要素, 它反映了测验的构念和内容设计, 直接影响着测验诊断分类的效果。本文采用Monte Carlo模拟, 研究了6种属性层级关系下, 不同的Q矩阵设计对于认知诊断效果的影响。用模式判准率的均值和标准差分别从分类准确性和稳定性的角度来评价诊断效果。实验结果表明:(1) 不同属性层级关系下, 分类准确性会随着测验长度的增加而提高, 但当测验长度增加到一定程度时, 会出现“天花板效应”; (2) Q矩阵中R*的个数(NR*)会影响测验的分类准确性及稳定性:NR*越大, 测验的分类稳定性越高, 当测验长度为属性个数的整数倍, 且NR*为测验长度相对属性个数的最大奇数倍时分类准确性最高; (3) Q矩阵中除R*以外的项目考察的属性个数会随着属性层级关系的不同对测验的分类准确性和稳定性产生不同的影响。根据实验结果, 本研究提出了进行诊断评价时Q矩阵优化设计的一些建议。 相似文献
13.
将基于项目反应理论的计算机自适应测验运用于特质焦虑量表,考察这一测验形式在人格测量中所具有的特性.收集特质焦虑量表真实纸笔作答数据,选用合适的心理测量模型,模拟计算机自适应测验.结果表明:相对纸笔测验而言,计算机自适应测验的测试效率更高、对被试的分辨力更强、结果更直观.计算机自适应测验在人格测量中的实践值得进一步探索. 相似文献
14.
基于经典测验理论(CTT)的等值方法主要有线性等值和等百分位等值两种。在不同情境下,不同的等值方法会产生不同的等值结果。本研究以真分数等值为依据,用蒙特卡洛模拟研究方法,综合比较了各种题目难度分布条件下和各种样本容量条件下两种CTT等值方法的等值结果。研究结果表明:(1)线性等值的误差受题目难度分布影响较大,等百分位等值的误差几乎不受题目难度分布影响。(2)线性等值的误差几乎不受样本容量的影响,等百分位等值的误差受样本容量影响较大。(3)不论题目难度分布如何,只要样本容量足够大,等百分位等值的效果都比线性等值更好。 相似文献
15.
CD-CAT是CDA同CAT的相结合的产物,适用于课堂教学,是教师补救教学、学生自我学习的重要工具。作为CD-CAT重要组成部分的初始阶段项目选取方法是影响测验判准率的重要因素。本文基于现有研究和CDA的项目区分度提出了四种新的初始阶段项目选取方法:CTTID法、CDI法、CTTIDR*法和CDIR*法。通过模拟研究发现,在定长的CD-CAT下,题库质量是HD-HV下,初始阶段结束时,CTTIDR*法的PCCR比现有的T阵法高了.2999,比PWKL高了.1707,其它题库下趋势相同。整个测验结束时CTTIDR*法的判准率仍然是最高的。在变长的CD-CAT下,最大后验概率大于.7、.8、.9下,CTTIDR*法的被试平均测验长度比T阵法分别缩短了2.6170、2.2347、1.7470道题。 相似文献
16.
尽管多阶段测验(MST)在保持自适应测验优点的同时允许测验编制者按照一定的约束条件去建构每一个模块和题板,但建构测验时若因忽视某些潜在的因素而导致题目之间出现局部题目依赖性(LID)时,也会对MST测验结果带来一定的危害。为探究\"LID对MST的危害\"这一问题,本研究首先介绍了MST和LID等相关概念;然后通过模拟研究比较探讨该问题,结果表明LID的存在会影响被试能力估计的精度但仍为估计偏差较小,且该危害不限于某一特定的路由规则;之后为消除该危害,使用了题组反应模型作为MST施测过程中的分析模型,结果表明尽管该方法能够消除部分危害但效果有限。这一方面表明LID对MST中被试能力估计精度所带来的危害确实值得关注,另一方面也表明在今后关于如何消除MST中由LID造成危害的方法仍值得进一步探究的。 相似文献
17.
心理学实验首先必须保证结果的有效性和可靠性。实验素材容量是影响实验结果的关键因素之一。本文的目的是通过运用多元概化理论分析几个典型认知行为实验的素材容量对实验结果精度的影响, 从而探讨最佳的实验素材容量的确定问题。研究结果发现, 在IAT测验上, 相容与不相容任务的素材容量为50时最佳, 可靠性指数为0.92; 在图-词干扰范式中, 素材容量以48时为最佳, 可靠性指数为0.95; 对线索提示范式, 50%有效提示中, 有效与无效提示最佳素材容量为35, 可靠性指数是0.97。研究表明, 多元概化理论可以很好地用于确定认知行为实验中素材的最佳容量。 相似文献
18.
在认知诊断计算机化自适应测验(CD-CAT)中, 被试对每个属性的掌握概率更直接地反映了被试能力的当前估计值。因此, 基于被试的属性掌握概率来构建选题策略, 选择最能改变被试属性掌握概率的题目作为下一个测验项目, 这应该是一个值得尝试的方案。本文借鉴已有相关研究的数据生成模式进行探索, 模拟实验结果表明:假设属性间相互独立,在定长(长度为16)、变长(长度为16或后验属性掌握模式概率达到0.8)以及短测验(长度分别为4、6、8、10)的情况下, 基于属性掌握概率的选题策略PPWKL和PHKL有较好的分类准确率, 在题目曝光率, 题库使用均匀性等方面也有较好的表现; 与研究较多的PWKL、HKL等策略相比, 也略有优势; 当属性间存在不同程度的相关时, 在定长、变长以及较短的测验条件下, 基于PHKL和MI的测验对知识状态估计精度较好, 基于PPWKL和PHKL的测验综合表现占优。 相似文献
19.
CD-CAT以Q矩阵理论为基础,随着属性个数的增加,理想掌握模式的数量以指数的形式增加,这大大提高了计算难度,计算速度缓慢,判准率大幅降低。为了解决该问题,本文提出了具有认知诊断功能的区块化自适应测验(CD-BAT)。CD-BAT将单个的CD-CAT作为区块进行处理,把前一区块的信息作为先验信息用于后一区块的估计过程,并不断更新和修正前一区块的估计结果。模拟研究表明,CD-BAT的判准率略优于CD-CAT,题库质量下降时,这种优势逐渐加大。随着CD-BAT的区块的增加,其属性判准率呈现上升趋势。 相似文献
20.
MST结合了纸笔测验和CAT的优势,现阶段在美国的许多大型考试中得到了应用。本文结合MST、认知诊断、CD-CAT和OMST的思想对CD-MST的可行性进行研究。CD-MST具有认知诊断和自适应的功能,能够使用较少的题目为被试提供即时的、准确的、丰富的诊断信息;同时它计算速度较快,允许考生返回检查和修改,更符合实际考试情境,且在测验的编制上更容易控制。本研究考察了选题策略和题库质量对不同测验设计的CD-MST的影响,并同CD-CAT进行了比较。通过模拟研究发现:MPWKL、GDI和SHE选题策略同样也适用于CD-MST的选题,在题库质量好的情况下这三种选题策略的判准率同CD-CAT持平。CD-MST的测验时间要比CD-CAT缩短2/3以上。 相似文献