首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
与传统的纸笔测验(Paper And Pencil Based Test, P&P)相比计算机化自适应测验(Computerized Adaptive Testing, CAT)根据被试的作答反应自适应地选择题目, 它不仅缩短了测验长度, 还极大地提高了测验的准确性。然而, 目前绝大多数CAT不允许被试修改答案, 研究者主要担心修改答案会降低CAT的有效性。允许修改答案符合被试一贯的测验习惯, 修改之后的分数更能反映被试真实的水平, 从而能够进一步促进CAT在实际中的应用。现有的研究主要从三个方面提出了可修改答案CAT的控制方法:一是测验设计; 二是改进选题策略; 三是建构模型。未来的研究应进一步探讨这些方法之间的比较与结合, 以及对可修改答案认知诊断CAT (Cognitive Diagnostic CAT, CD-CAT)的研究。  相似文献   

2.
为探讨项目功能差异对于认知诊断测验估计准确性的影响,采用模拟研究的方式在3种DIF题目所占比例,3种DIF量下,检测了4种认知诊断测验中存在的DIF对于被试能力估计准确性和题目参数估计准确性的影响。结果发现:(1)DIF对于目标组被试能力估计准确性影响较大;(2)含有DIF的题目所占比例和DIF量增大,都会降低目标组被试能力估计的准确性;(3)非一致性DIF对于被试能力估计准确性的影响大于一致性DIF;(4)只有含有DIF题目的题目参数估计准确性会下降;(5)随着DIF量增大,含有DIF题目的题目参数估计准确性下降增多,但不受含DIF题目所占比例的影响。  相似文献   

3.
摘要:引入了三种可以估计认知诊断属性分类一致性信度置信区间的方法:Bootstrap法、平行测验法和平行测验配对法。用模拟研究验证和比较了这三种方法的表现,结果发现,平行测验法和Bootstrap法在被试量比较少、题目数量比较少的情况下,估计的标准误和置信区间较接近,但是随着被试量的增加,Bootstrap法的估计精度提高较快,在被试量大和题目数量较多时基本接近平行测验配对法的结果。Bootstrap法的所需时间最少,平行测验配对法计算过程复杂且用时较长,推荐用Bootstrap法估计认知诊断属性分类一致性信度的置信区间。  相似文献   

4.
宋枝璘  郭磊  郑天鹏 《心理学报》2022,54(4):426-440
数据缺失在测验中经常发生, 认知诊断评估也不例外, 数据缺失会导致诊断结果的偏差。首先, 通过模拟研究在多种实验条件下比较了常用的缺失数据处理方法。结果表明:(1)缺失数据导致估计精确性下降, 随着人数与题目数量减少、缺失率增大、题目质量降低, 所有方法的PCCR均下降, Bias绝对值和RMSE均上升。(2)估计题目参数时, EM法表现最好, 其次是MI, FIML和ZR法表现不稳定。(3)估计被试知识状态时, EM和FIML表现最好, MI和ZR表现不稳定。其次, 在PISA2015实证数据中进一步探索了不同方法的表现。综合模拟和实证研究结果, 推荐选用EM或FIML法进行缺失数据处理。  相似文献   

5.
对93名幼儿进行了五种因果变化模式的因果推理题目的测试。结果表明:(1)在不同的因果变化模式下,被试进行因果推理的成绩存在差异,且在对于这五类题目的掌握上具有一定的顺序。(2)被试在同样因果变化模式题目的表现之间具有较高的相似性,而在因果联结强度相同的题目之间则具有显著的差异。(3)被试对于各题目回答的正确率并不随原因与结果联结次数的增多而提高。(4)即使是在观察到的刺激完全一致的情况下,被试的回答仍会因因果变化模式的差异及主试对于题目解释的不同而存在差别。  相似文献   

6.
廖国锋  沈政 《心理学报》1993,26(3):49-54
用线条描绘的图形作为刺激材料,A为老鼠,C为老头,B为双关图(ambi-guous figure)。图形按两种顺序:A→B→C(Ⅰ)和C←B→A(Ⅱ)向被试呈现,每次呈现时间100ms。被试按刺激呈现方式分成两组,每组20人。被试接受图形的同时记录事件相关电位(ERPs),B图呈现后要求被试报告观察内容。对主观报告考验,发现双关图在Ⅰ呈现方式中作为非面孔刺激(老鼠)被认知,在Ⅱ呈现方式中作为面孔刺激(老头)被认知。ERPs分析表明,双关图作为面孔刺激被识别时,T_3、Pz的P_2波潜伏期比双关图作为非面孔刺激被识别时分别延长6.09ms和7.39ms,波幅没有显著差异;双关图作为面孔刺激时T_3、T_4、Pz和Oz的P_3波的潜伏期比双关图作为非面孔刺激时延长约15ms;波幅没有显著差异。  相似文献   

7.
孙佳楠  张淑梅  辛涛  包钰 《心理学报》2011,43(9):1095-1102
规则空间方法(RSM)和属性层级方法(AHM)是两种重要的认知诊断方法, 近年来受到了广泛关注。本文在属性层级方法和丁树良等人(2009, 2010)改进的Q矩阵理论的基础上, 通过定义观察反应模式与理想反应模式之间的广义距离, 给出了一种识别被试知识状态的认知诊断方法, 即广义距离判别法。通过DINA模型生成被试的作答反应矩阵进行模拟研究, 以模式判准率和属性判准率作为衡量被试知识状态分类准确率指标, 将广义距离判别法、RSM和AHM的分类A方法分别与DINA模型进行比较。结果表明, 本文提出的广义距离判别法具有更好的分类效果。  相似文献   

8.
迁移研究中的实验设计、迁移量计算与口语报告分析   总被引:6,自引:0,他引:6  
在20世纪初。心理学家们研究迁移的实验设计主要有单组法、等组法和三组法。在单组法中,先让被试完成第一项任务(迁移任务),再让他练习第二项任务(训练任务),练习到一定程度时.再要求被试完成第一项任务。如果第二次的成绩比第一次有所提高,就认为第二项任务对第一项任务产生了迁移的效果。在等组法中.首先让两组年龄、智力、教育程度等条件基本相同的被斌完成一项任务(迁移任务);然后再给其中一组被试(实验组)练习另一项任务(训练任务),另一组被试(控制组)不给予练习;最后再要求两组被试完成第一项任务。如果实验组的成绩比控制组的成绩好,就说明第二项任务对第一项任务产生了迁移。这种设计排除了练习效应的影响。  相似文献   

9.
在认知诊断计算机化自适应测验(CD-CAT)中, 被试对每个属性的掌握概率更直接地反映了被试能力的当前估计值。因此, 基于被试的属性掌握概率来构建选题策略, 选择最能改变被试属性掌握概率的题目作为下一个测验项目, 这应该是一个值得尝试的方案。本文借鉴已有相关研究的数据生成模式进行探索, 模拟实验结果表明:假设属性间相互独立,在定长(长度为16)、变长(长度为16或后验属性掌握模式概率达到0.8)以及短测验(长度分别为4、6、8、10)的情况下, 基于属性掌握概率的选题策略PPWKL和PHKL有较好的分类准确率, 在题目曝光率, 题库使用均匀性等方面也有较好的表现; 与研究较多的PWKL、HKL等策略相比, 也略有优势; 当属性间存在不同程度的相关时, 在定长、变长以及较短的测验条件下, 基于PHKL和MI的测验对知识状态估计精度较好, 基于PPWKL和PHKL的测验综合表现占优。  相似文献   

10.
应聘者在人格测验中的作假是人事选拔领域关注的重点问题。研究试图通过眼动追踪技术探讨应聘者在人格测验中作假的反应过程。首先让50名被试对44道大五人格量表(BFI-44)题目进行工作赞许性评定。然后采用被试内模拟实验设计,在诚实和作假两种情境下由另外50名被试在计算机上作答BFI-44,使用Tobbi 120眼动仪记录被试作答人格测验时对每道题目的作答反应、反应潜伏期和眼动指标。结果显示,在作假情境下,应聘者在5个人格维度上都会作假。在作答受工作赞许题目或不受工作赞许的题目时,作假反应潜伏期更短,眼动注视点更少,更多集中在极端选项上;在作答无工作赞许性的题目时,作假反应潜伏期更长,更多集中在中间选项上。据此结果,提出了一个基于工作赞许性的"混合加工模型"构想,解释应聘情境中人格测验作假反应过程。  相似文献   

11.
Methods of cognitive diagnostic computerized adaptive testing (CD-CAT) under higher-order cognitive diagnosis models have been developed to simultaneously provide estimates of the attribute mastery statuses of examinees for formative assessment and estimates of a latent continuous trait for overall summative evaluation. In a typical CD-CAT environment, examinees are often subject to a time limit, and the examinees’ response times (RTs) for specific test items can be routinely recorded by custom-made programs. Because examinees are individually administered tailored sets of test items from the item pool, they may experience different levels of speededness during testing and different levels of risk of running out of time. In this study, RTs were considered during the item-selection procedure to control the test speededness and the RTs were treated as useful information for improving latent trait estimation in CD-CAT under the higher-order deterministic input, noisy ‘and’ gate (DINA) model. A modified posterior-weighted Kullback–Leibler (PWKL) method that maximizes the item information per time unit and a shadow-test method that assembles a provisional test subject to a specified time constraint were developed. Two simulation studies were conducted to assess the effects of the proposed methods on the quality of CD-CAT for fixed- and variable-length exams. The results show that, compared with the traditional PWKL method, the proposed methods preserve a lower risk of running out of time while ensuring satisfactory attribute estimation and providing more accurate estimates of the latent trait and speed parameters. Finally, several suggestions for future research are proposed.  相似文献   

12.
CD–CAT中已有选题策略较注重测验效率,而对题库使用率不够重视。针对此问题,基于DINA模型,引入两种新的选题策略KLED和RHA,同时对HA进行模拟研究。结果显示:PWKL与KLED只在测验效率上具有优势;KLED若按属性向量分层,题库使用率有所提高,KLED比ED更容易推广到其他有显式表达的诊断模型场合;HA、RHA和RP–PWKL可较好兼顾测验效度和题库使用率,但RP-PWKL需设置项目的最大曝光率阈值。两种新选题方法在定长和变长CD-CAT都具有一定的应用价值。  相似文献   

13.
郭磊  郑蝉金  边玉芳 《心理学报》2015,47(1):129-140
本研究借鉴传统计算机化自适应测验的思想, 并结合认知诊断的特点, 在认知诊断框架下提出了4种变长CD-CAT的终止规则, 分别是属性标准误法(SEA)、邻近后验概率之差法(DAPP)、二等分法(HA)以及混合法(HM)。在未控制曝光和采用不同曝光控制条件下, 与HSU法及KL法进行了比较。研究结果表明:(1) 终止条件越严格, 平均测验长度越长, 按测验长度最大值终止的测验百分比越大, 模式判准率越高。(2) 当未加入曝光控制时, 4种新的终止规则均有较好表现, 与HSU法十分接近。随着最大后验概率预设值的增加或e的减小, 模式判准率呈上升趋势, 平均测验长度逐渐增加, 但在题库使用率方面均较差。(3) 当加入项目曝光控制时, 6种变长终止规则下的题库使用率有了极大的提升, 仍能保持较高的模式判准率, 并且不同的曝光控制方法对终止规则的影响是不同的。其中, 相对标准终止规则极易受到曝光控制方法的影响。(4) 综合来看, SEA、HM以及HA法在各项指标上的表现与HSU法基本一致, 其次为KL法和DAPP法。  相似文献   

14.
传统CD-CAT通常选择一个认知诊断模型(cognitive diagnosis model, CDM)标定题库参数,但在实际应用中一个CDM很难完全拟合题库中所有的题目。G-DINA模型是一般化的饱和模型,可以通过Wald统计量检验在题目水平上,比较简约模型(DINA、DINO、ACDM、LLM和RRUM)是否能够代替饱和模型(G-DINA),并为每个题目选择一个相对最优的CDM,从而充分发挥各个CDM的优势,从而在一个题库中有的题目采用简约CDM,而有的题目采用饱和CDM,本文把这种思路称为混合模型(Mixed-CDMs)思路。基于此,本文探讨了基于混合模型的CD-CAT,并通过两个模拟研究及其应用研究验证了该方法的效果。研究结果表明基于混合模型建立的CD-CAT具有理想的效果,从而为CD-CAT在实际使用中提供了新思路和新方法。  相似文献   

15.
作为认知诊断与计算机化自适应测验相结合的产物, 认知诊断计算机化自适应测验(Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT)是对被试知识状态的自适应。它既有传统CAT所面临的普遍性问题, 也有在认知诊断中遇到的特殊问题:由于认知诊断中涉及属性这一概念, CD-CAT与传统CAT有很大的差别。本文紧紧围绕属性引起的差异, 分别从认知诊断模型、题库建设、起始规则、选题策略、被试知识状态估计和终止规则等几部分详细介绍CD-CAT的研究进展和存在的问题。  相似文献   

16.
基于属性平衡的CD-CAT选题策略能够保证每个认知属性被相当数量的题目测量,从而提高被试属性判准率,传统的基于属性平衡的选题策略包括MMGDI法和MGCDI法。本文针对传统的基于属性测量次数平衡选题策略进行改进,提出4种新的基于属性平衡的选题策略:RMGDI、RMCDI、SE-RMGDI、SE-RMCDI,前两种为基于属性测量次数平衡,后两种为基于属性测量精度平衡的选题策略。模拟研究表明:(1)定长CD-CAT条件下,短测验中,MMGDI表现最好,而长测验中,SE-RMGDI和SE-RMCDI的表现优于传统的属性平衡选题策略。(2)不定长CD-CAT条件下,RMGDI在判准率指标上表现优于传统的属性平衡选题策略,4种新的属性平衡策略在测量效率和综合指标上的表现均优于传统的选题策略。  相似文献   

17.
谭青蓉  汪大勋  罗芬  蔡艳  涂冬波 《心理学报》2021,53(11):1286-1300
项目增补(Item Replenishing)对认知诊断计算机自适应测验(CD-CAT)题库的维护有着至关重要的作用, 而在线标定是一种重要的项目增补方式。基于数据挖掘中特征选择(Feature Selection)的思路, 提出一种高效的基于熵的信息增益的在线标定方法(记为IGEOCM), 该方法利用被试在新旧题上的作答联合估计新题的Q矩阵和项目参数。研究采用Monte Carlo模拟实验验证所开发新方法的效果, 并同时与已有的在线标定方法SIE、SIE-R-BIC和RMSEA-N进行比较。结果表明:新开发的IGEOCM在各实验条件下均具有较好的项目标定精度和项目估计效率, 且整体上优于已有的SIE等方法; 同时, IGEOCM标定新题所需的时间低于SIE等方法。总之, 研究为CD-CAT题库中项目的增补提供了一种更为高效、准确的方法。  相似文献   

18.
提出两种认知诊断计算机自适应测验下平衡属性收敛的新方法(MABI、RTA),模拟研究系统探讨和比较了此二者与已有方法(ABI、IABI和RABI)的表现。结果发现:(1)新方法较不考虑属性收敛的方法有更高的准确率以及更均衡的题目使用率;(2)新方法较ABI和RABI有稍低的准确性,但有更平衡的题目使用率;(3)新方法与IABI的准确性和题目使用率在不同选题策略下各有合优势。总之,两种新方法较好地兼顾测量准确性、题目使用率以及题库曝光情况。  相似文献   

19.
毛秀珍  辛涛 《心理学报》2013,45(6):694-703
项目曝光率关系到题库建设和测验安全,是计算机化自适应测验(Computerized Adaptive Testing, CAT)需要考虑的重要问题。在认知诊断 CAT 情形下,首先基于传统 CAT 中 a-分层方法的思想提出按项目信息量对题库分层的分层多阶段(Stratified Multistage, SM)选题方法;然后将 SM 方法与项目合格(Item Eligibility, IE)方法相结合得到SMIE方法。在此基础上,开展模拟研究比较SM、IE、SMIE、最大修正优先指标(Maximum Modified Priority Index, MMPI)方法、限制阈值(Restrictive Threshold, RT)方法和限制进度(Restrictive Progressive, RPG)方法的选题表现。总体上,它们的测量精度从高到低依次为IE、SM、SMIE、RT、RPG和MMPI方法;项目曝光分布均匀性的优劣次序为MMPI、RPG、SMIE、RT、SM和IE方法;SMIE和RT方法能较好地平衡测量精度和项目曝光均匀性要求。  相似文献   

20.
提出两种认知诊断计算机自适应测验下平衡属性收敛的新方法(MABI、RTA),模拟研究系统探讨和比较了此二者与已有方法(ABI、IABI和RABI)的表现。结果发现:(1)新方法较不考虑属性收敛的方法有更高的准确率以及更均衡的题目使用率;(2)新方法较ABI和RABI有稍低的准确性,但有更平衡的题目使用率;(3)新方法与IABI的准确性和题目使用率在不同选题策略下各有合优势。总之,两种新方法较好地兼顾测量准确性、题目使用率以及题库曝光情况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号