期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王钰彤罗照盛王睿《心理科学》2015,(2):452-456

摘要计算机化多阶段自适应测验是基于计算机技术的测验形式,它将题目集合作为测试单元,通过多阶段自适应的形式对被试进行测试和评分。近年来通过研究各种测验形式,发现其比计算机化自适应测验和传统纸笔测验突显出更大优势。与传统纸笔测验相比,其具有参数不变性、能力估计更精确等优势。与计算机化自适应测验相比,其具有可控制题目特性、被试可检查题目等优势。如何减小测量误差,使其应用更加便捷、有效,是未来研究的发展方向。相似文献

2.

多级评分计算机化自适应测验动态综合选题策略 总被引：1，自引：0，他引：1

罗芬丁树良王晓庆《心理学报》2012,44(3):400-412

多级评分可以提供更多关于被试的信息, 是计算机化自适应测验的一个发展方向, 选题策略是计算机化自适应测验的研究重点。对于多级评分的等级反应模型, 本文拟用区间估计的思想改进近期提出的几种选题策略, 并且将两级评分b-STR和a-STR推广到多级评分以改进最大信息量选题策略。Monte Carlo模拟实验表明在达到或接近原有选题策略测验精度的基础上, 本文提出的几种新选题策略有的能够有效降低测验长度, 有的可以极大降低项目曝光率。相似文献

3.

可修改答案的计算机化自适应测验的方法

高旭亮涂冬波王芳张龙李雪莹《心理科学进展》2016,24(4):654-664

与传统的纸笔测验(Paper And Pencil Based Test, P&P)相比计算机化自适应测验(Computerized Adaptive Testing, CAT)根据被试的作答反应自适应地选择题目, 它不仅缩短了测验长度, 还极大地提高了测验的准确性。然而, 目前绝大多数CAT不允许被试修改答案, 研究者主要担心修改答案会降低CAT的有效性。允许修改答案符合被试一贯的测验习惯, 修改之后的分数更能反映被试真实的水平, 从而能够进一步促进CAT在实际中的应用。现有的研究主要从三个方面提出了可修改答案CAT的控制方法：一是测验设计; 二是改进选题策略; 三是建构模型。未来的研究应进一步探讨这些方法之间的比较与结合, 以及对可修改答案认知诊断CAT (Cognitive Diagnostic CAT, CD-CAT)的研究。相似文献

4.

计算机化分类测验终止规则的类别、特点及应用

任赫黄颖诗陈平《心理科学进展》2022,30(5):1168-1182

计算机化分类测验(Computerized Classification Testing, CCT)能够高效地对被试进行分类, 已广泛应用于合格性测验及临床心理学中。作为CCT的重要组成部分, 终止规则决定测验何时停止以及将被试最终划分到何种类别, 因此直接影响测验效率及分类准确率。已有的三大类终止规则(似然比规则、贝叶斯决策理论规则及置信区间规则)的核心思想分别为构造假设检验、设计损失函数和比较置信区间相对位置。同时, 在不同测验情境下, CCT的终止规则发展出不同的具体形式。未来研究可以继续开发贝叶斯规则、考虑多维多类别情境以及结合作答时间和机器学习算法。针对测验实际需求, 三类终止规则在合格性测验上均有应用潜力, 而临床问卷则倾向应用贝叶斯规则。相似文献

5.

项目反应理论等级反应模型项目信息量 总被引：7，自引：1，他引：6

罗照盛欧阳雪莲漆书青戴海琦丁树良《心理学报》2008,40(11):1212-1220

信息函数作为项目反应理论中的一个重要概念,在进行项目和测验分析的工作中,以及在指导测验编制的工作中,有着非常重要的应用价值。信息函数的应用在计算机化自适应测验中更是重中之重,也受到最大关注。然而,关于多级记分项目信息函数特性的研究还比较少。本研究模拟了被试特质水平参数数据和项目参数数据,其中被试特质水平参数生成了121个被试特质水平参数点,项目参数生成了4批不同区分度参数数据,每批数据有126个不同难度等级参数组合模式的项目,每个项目有5个难度等级。通过数据分析后发现,等级反应模型项目提供最大信息量所对应的被试特质水平,是与该项目几个相互临近的难度等级组相适应,既不是只与其中一个难度等级对应,也不一定是与所有难度等级对应。本研究称这种规律为“临近难度等级占优”。这个发现无疑对测验质量分析和测验编制工作,包括计算机化自适应测验编制,具有重要的指导意义相似文献

6.

多维计算机化自适应测验:模型、技术和方法

《心理科学进展》2015,(5)

多维计算机化自适应测验(multidimensional computerized adaptive testing,MCAT)以多维项目反应理论为基础实现同时估计被试在测验每个维度上的能力水平,并通过计算机化自适应测验提高诊断评估的准确性和效率,因而具有广阔的应用前景。基于对MCAT的模型基础、能力估计方法、选题策略和终止规则的详细介绍和评价,提出了MCAT未来研究方向的几点思考。相似文献

7.

计算机化自适应测验在认知诊断中的应用

唐小娟丁树良俞宗火《心理科学进展》2012,20(4):616-626

作为认知诊断与计算机化自适应测验相结合的产物, 认知诊断计算机化自适应测验(Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT)是对被试知识状态的自适应。它既有传统CAT所面临的普遍性问题, 也有在认知诊断中遇到的特殊问题：由于认知诊断中涉及属性这一概念, CD-CAT与传统CAT有很大的差别。本文紧紧围绕属性引起的差异, 分别从认知诊断模型、题库建设、起始规则、选题策略、被试知识状态估计和终止规则等几部分详细介绍CD-CAT的研究进展和存在的问题。相似文献

8.

计算机化自适应测验选题策略述评 总被引：2，自引：0，他引：2

毛秀珍辛涛《心理科学进展》2011,19(10):1552-1562

计算机化自适应测验(computerized adaptive testing, CAT)是基于测量理论和计算机技术的一种测验模式。它根据考生的作答反应自适应地选择测验项目。选题策略是CAT的重要组成部分之一, 关系到测量效率、测验安全和测验信、效度等重要问题。根据CAT是否具有非统计约束对传统CAT和认知诊断CAT的选题策略进行了分类介绍, 未来研究应进一步提高选题策略的综合表现、深入探讨多级评分项目和认知诊断CAT的选题策略。相似文献

9.

计算机自适应测验在特质焦虑量表中的运用

邓远平戴海琦罗照盛《心理学探新》2014,(3):272-275,283

将基于项目反应理论的计算机自适应测验运用于特质焦虑量表,考察这一测验形式在人格测量中所具有的特性.收集特质焦虑量表真实纸笔作答数据,选用合适的心理测量模型,模拟计算机自适应测验.结果表明：相对纸笔测验而言,计算机自适应测验的测试效率更高、对被试的分辨力更强、结果更直观.计算机自适应测验在人格测量中的实践值得进一步探索. 相似文献

10.

认知诊断计算机化自适应测验中的项目增补

陈平辛涛《心理学报》2011,43(7):836-850

项目的增补对认知诊断计算机化自适应测验(CD-CAT)题库的开发与维护至关重要。借鉴单维项目反应理论(IRT)中联合极大似然估计方法(JMLE)的思路, 提出联合估计算法(JEA), 仅依赖被试在旧题和新题上的作答反应联合地、自动地估计新题的属性向量和新题的项目参数。研究结果表明：当项目参数相对较小且样本量相对较大时, JEA算法在新题属性向量和新题项目参数估计精度方面表现不错; 而且样本大小、项目参数大小以及项目参数初值都影响着JEA算法的表现。相似文献

11.

题库优化设计的回顾与展望 总被引：1，自引：0，他引：1

杨涛杨婷婷辛涛《心理与行为研究》2012,10(2):154-160

题库优化设计是指在题库建立前确定一份最佳的题库开发蓝图,使题库更好地服务于组卷。目前,在线性计算机化测验的情景下,题库优化设计方法主要包括：线性规划法、成本函数法;在计算机适应性测验（CAT）情境下,题库设计方法主要包括：影子测验设计法、p-优化设计法。文中首先介绍这些优化设计法的基本思路、具体步骤与相关的应用研究,然后评述当前题库设计研究的局限,指出未来的可能研究方向。相似文献

12.

IRT与MIRT在测验垂直等值中的应用

王怡唐文清刘晶张敏强李明黎光明《心理科学进展》2014,22(5):881-888

测验垂直等值是指将测试同一心理特质的不同水平的测验转换到同一个分数量尺上的过程。IRT与MIRT是实现垂直等值的主要方法。IRT无需假设被试的能力分布, 参数估计不依赖于样本, 是构建垂直量表的有效方法, 但测验不满足单维假设时其应用受到限制。MIRT结合IRT和因素分析的特点对IRT进行了拓展, 可更有效估计多维测验的项目参数和被试能力参数, 在垂直等值中有重要应用。已有研究主要探讨IRT和MIRT在垂直等值应用中的适用性、标定方法和参数估计方法, 比较研究两种方法的特性。未来研究应纳入更多变量条件进行比较研究, 拓展方法的应用。相似文献

13.

题目位置效应的概念及检测

聂旭刚陈平张缨斌何引红《心理科学进展》2018,26(2):368-380

题目位置效应(Item Position Effect, IPE)是指在剔除随机误差的影响之后, 同一道题目在不同测验间因题目位置的变化而导致题目参数的变化。IPE的存在会严重威胁依赖于项目反应理论参数不变性特征的相关应用, 比如测验等值和计算机化自适应测验。目前关于这一领域的研究主要集中于对IPE的检测, 而对所检测到的效应进行进一步的解释, 则是今后的研究重点。另外, 在不同的研究情境下深入探讨IPE, 对于基础研究领域和实践领域都具有重要意义。相似文献

14.

认知诊断计算机化自适应测验的选题策略

唐倩毛秀珍何明霜何洁《心理科学进展》2020,28(12):2160-2168

随着认知诊断计算机化自适应测验(cognitive diagnostic computerized adaptive testing, CD-CAT)理论与实践的发展, 兼顾知识状态与能力的双目标CD-CAT逐渐受到重视。选题策略是CAT的核心, 通过梳理传统CD-CAT和双目标CD-CAT选题策略的研究, 并对它们的特点、关系及表现进行介绍和评析。最后, 基于认知诊断模型与CAT实践发展指出未来应加强一般化认知模型、复杂测验条件认知诊断模型下选题策略的研究; 应开发双目标诊断测验的项目和测验特征指标; 还应加强非参数选题方法和CD-CAT的实践应用研究。相似文献

15.

多维项目反应理论等级反应模型 总被引：2，自引：0，他引：2

杜文久肖涵敏《心理学报》2012,44(10):1402-1407

基于因子分析和单维项目反应理论的多维项目反应理论是测量理论的新发展方向之一。但是, 多维项目反应理论仍处于不成熟的发展阶段, 多数研究也只是以二级评分为主。本文首先介绍了逻辑斯蒂形式的多维等级反应模型, 并以二维等级反应模型为例, 分析了模型的数学函数图像及其性质。然后, 推导出了多维等级反应模型的项目信息函数, 并结合实例进行了讨论。进一步地, 本文阐述了使用联合极大似然估计和马尔科夫链蒙特卡洛方法估计多维等级反应模型参数的思想。最后, 指出了一些有待研究的问题。相似文献

16.

Investigating the relationship between item exposure and test overlap: Item sharing and item pooling

Shu‐Ying Chen Pui‐Wa Lei 《The British journal of mathematical and statistical psychology》2010,63(1):205-226

To date, exposure control procedures that are designed to control item exposure and test overlap simultaneously are based on the assumption of item sharing between pairs of examinees. However, examinees may obtain test information from more than one examinee in practice. This larger scope of information sharing needs to be taken into account in refining exposure control procedures. To control item exposure and test overlap among a group of examinees larger than two, the relationship between the two indices needs to be identified first. The purpose of this paper is to analytically derive the relationships between item exposure rate and each of the two forms of test overlap, item sharing and item pooling, for fixed‐length computerized adaptive tests. Item sharing is defined as the number of common items shared by all examinees in a group, while item pooling is the number of overlapping items that an examinee has with a group of examinees. The accuracy of the derived relationships was verified using numerical examples. The relationships derived will lay the foundation for future development of procedures to simultaneously control item exposure and item sharing or item pooling among a group of examinees larger than two. 相似文献

17.

对15种测验等值方法的比较研究 总被引：20，自引：2，他引：18

谢小庆《心理学报》2000,32(2):217-222

此项研究通过试验方法对４种基于经典测验理论的等值方法和１１种基于项目反应理论的等值方法进行了比较研究。研究数据为ＨＳＫ正式考试的数据,研究采用了较为可靠的检验标准。研究结果表明,在有些情况下,进行等值处理并非是最好的选择;在题库建设中,某些ＩＲＴ方法是可行的;至少对于ＨＳＫ数据,不论是单、双、三参数,不论是ｍｓ方法和ｍｍ方法,ＩＲＴ参数转换等值方法的误差都较大,均不足取。相似文献

18.

自陈量表式测验应用IRT的可行性 总被引：6，自引：1，他引：5

郭庆科陈英敏孟庆茂《心理学报》2005,37(2):275-279

对采用5级评分Likert式测题的情感能力量表的分析表明,各分量表项目都有较好的模型-数据拟合性,而且显示了参数估计的不变性,及与CTT参数的关联性。这些都表明Likert量表应用IRT模型的假设条件得到了满足,即IRT应用是可行的。研究还表明IRT能对测量精度进行更精确的估计。相似文献