期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

康春花杨亚坤曾平飞《心理科学》2019,(2):455-462

研究提出了一种简洁的适于混合计分的非参数认知诊断方法—曼哈顿距离判别法（MDD）,将HDD纳入MDD框架,通过模拟和实证研究考察了MDD的适宜性,结果表明：（1）MDD简单易解, 适于混合计分情境,0-1计分时,HDD是MDD的一个特例;（2）MDD的判准率较高,三种判别方法差异极小;（3）MDD具有非参数方法不受知识状态影响、对样本容量无依赖,与属性个数关系不大等特点;（4）MDD在实践中的应用效果较好,为CDA走向实践、走向课堂提供了可能。相似文献

2.

基于选项层面的认知诊断非参数方法

下载免费PDF全文

郭磊周文杰《心理学报》2021,53(9):1032-1043

充分挖掘选择题(Multiple-Choice, MC)的诊断信息受到了较多关注, 将干扰项信息考虑在内可以提升诊断精度。为了弥补参数模型基于大样本才能获得可靠估计的不足, 以及适用于班级水平的小样本诊断测验情境, 本研究提出了非参数的多选题诊断方法。模拟和实证研结果表明：(1)当MC测验中题目参数不存在较大差异时, ${{d}_{text{ph}-text{MC}}}$法在多数情况下表现优于参数类诊断模型。(2)当MC测验中题目参数存在较大差异时, ${{d}_{ph-MC}}$法的表现最优。(3)实证研究中非参数方法和参数类模型的分类一致性程度较高, ${{d}_{text{ph}-text{MC}}}$距离法估计得到的考生属性总体掌握程度与总分相关最高。最后, 基于MC诊断测验的特点提出了若干研究方向。相似文献

3.

基于项目自动生成的认知诊断测验开发

涂冬波蔡艳戴海琦《心理科学》2013,36(1):210-215

认知诊断、项目自动生成是现代心理测量领域的重要发展领域,二者的结合更是心理测量领域亟待开展的重要课题。本研究以小学数学问题解决认知诊断项目自动生成为例,探讨认知诊断领域的项目生成技术及算法。研究发现：(1)计算机自生成的项目参数与原模板参数具有较高的一致性。(2)同一项目模板下生成的不同试题的测量学特征基本不变。(3)同一批被试在自动生成的两份试卷的前、后测的能力( )值高度相关(r=0.811),前、后两次对被试诊断结果的一致性高达86.5%。这表明本文所设计的认知诊断测验项目的自动生成技术及其算法基本可行,小学数学问题解决认知诊断项目的自动生成效果较好。这也为其它认知诊断领域的项目自动生成提供了技术借鉴和支持。相似文献

4.

纵向非参数认知诊断评估

郑天鹏郭磊边玉芳《应用心理学》2024,(2):172-183

通过建立相邻时间点间被试知识状态和理想作答模式的链接,提出了4种逻辑简洁的纵向非参数认知诊断方法：LNPC、LWNPC、LGNPC和LWGNPC。模拟研究结果表明：建立的链接能提升纵向判准精度。与参数模型相比,4种方法估计精度相当,受样本容量影响小。与Long-HDD相比,4种方法判准精度较高,题目质量较低时LNPC和LWNPC仍有较好表现;实证研究表明：4种方法能够应用于实际纵向测验分析,与参数模型和Long-HDD判别一致性较高。推荐LWNPC方法。相似文献

5.

认知诊断CAT中项目曝光控制方法的比较

下载免费PDF全文

毛秀珍辛涛《心理学报》2013,45(6):694-703

项目曝光率关系到题库建设和测验安全,是计算机化自适应测验(Computerized Adaptive Testing, CAT)需要考虑的重要问题。在认知诊断 CAT 情形下,首先基于传统 CAT 中 a-分层方法的思想提出按项目信息量对题库分层的分层多阶段(Stratified Multistage, SM)选题方法;然后将 SM 方法与项目合格(Item Eligibility, IE)方法相结合得到SMIE方法。在此基础上,开展模拟研究比较SM、IE、SMIE、最大修正优先指标(Maximum Modified Priority Index, MMPI)方法、限制阈值(Restrictive Threshold, RT)方法和限制进度(Restrictive Progressive, RPG)方法的选题表现。总体上,它们的测量精度从高到低依次为IE、SM、SMIE、RT、RPG和MMPI方法;项目曝光分布均匀性的优劣次序为MMPI、RPG、SMIE、RT、SM和IE方法;SMIE和RT方法能较好地平衡测量精度和项目曝光均匀性要求。相似文献

6.

使用Bootstrap方法计算认知诊断评估中的信度

郭磊张金明《心理学探新》2018,(5):433-439

测验信度是衡量测验质量的一个重要指标,认知诊断评估中同样需要重视信度问题。现有认知诊断中计算信度的方法均有一个前提假设:被试在前后两次测验的后验概率分布和边际概率完全相同。该假设过强,未考虑两次测验间存在的随机误差。基于Bootstrap抽样,提出了两类属性信度和模式信度的指标,分别是积差相关法和修正的一致性法。通过模拟研究比较了新方法和现有方法在不同属性个数、属性间相关性和题目数量下的表现,并基于英语能力认证考试ECPE和分数减法的实证数据验证了新方法的可行性。最后,对信度估计的影响因素进行了讨论。相似文献

7.

认知诊断分类中心的确定

丁树良罗芬汪文义《心理学探新》2013,(5):396-401

期望反应模式是认知诊断分类的类中心,确定了诊断范围中属性及其层级关系后,类中心的数目由测验Q矩阵决定.类中心应该是完备的,即理论上有多少个知识状态就应该有多少个类中心,这涉及评分方式、Q矩阵设计、Q矩阵评价与修改、认知诊断测验如何实施等问题的讨论.重点给出多级评分认知诊断测验不同属性层级对应的完备Q矩阵设计的例子和罗列了Wang等人（2013）的Q矩阵修改的方法. 相似文献

8.

一种多策略认知诊断方法:MSCD方法的开发

下载免费PDF全文

涂冬波蔡艳戴海琦丁树良《心理学报》2012,44(11):1547-1553

当前国内外开发的认知诊断模型基本上只能处理单策略的测验情景,并假设所有被试均采用同一种加工策略/解题策略,从而忽视了加工策略的多样性及差异性.本研究根据de la Torre和Douglas (2008)采用多个Q矩阵来表征多个加工策略的思想,并结合使用丁树良等(2009)修正的Q矩阵理论及孙佳楠,张淑梅、辛涛和包珏(2011)的广义距离判别法,开发了一种新的多策略认知诊断方法——MSCD方法.Monte Carlo模拟研究结果表明:在单策略测验情景下,传统的单策略认知诊断方法与采用MSCD方法的诊断正确率均比较理想,且差异不大;但在多策略测验情景时,传统的单策略认知诊断方法诊断正确率较低,而MSCD方法的诊断正确率却仍较理想;当加工策略增至5种时,MSCD方法仍有较高的边际判准率、模式判准率以及加工策略判准率.研究表明MSCD方法基本合理、可行.这为实现对加工策略的诊断提供了方法学支持,有利于拓展认知诊断在实际中的应用. 相似文献

9.

基于群体水平评估的认知诊断模型开发与应用

蔡艳涂冬波丁树良《心理科学》2014,37(2):468-472

本文开发了基于群体水平评估的认知诊断模型——G-AHM,采用Monte Carlo模拟方法探讨了模型的性能与表现,并探讨其在实践中的具体应用。研究发现：（1）新模型G-AHM不仅具有较高的边际判准率,还具有较好的模式判准率,且具有较强的稳健性,说明本研究开发的新模型基本合理、可行的。（2）与已有的具有较高效度的诊断结果比较发现：从认知状态、属性掌握概率与属性掌握比例三个方面,G-AHM模型所获得的群体诊断结果都与已有结果基本一致,即可以认为G-AHM方法获得的诊断结果也具有较高的效度。因此G-AHM模型在实际中是可行、可信的;且G-AHM方法中将认知状态与群体对属性的掌握概率信息相结合,可以更好的解释及分析被试的认知水平,提供的信息更具参考价值。相似文献

10.

基于Q矩阵和广义距离的认知诊断方法

下载免费PDF全文

孙佳楠张淑梅辛涛包钰《心理学报》2011,43(9):1095-1102

规则空间方法(RSM)和属性层级方法(AHM)是两种重要的认知诊断方法, 近年来受到了广泛关注。本文在属性层级方法和丁树良等人(2009, 2010)改进的Q矩阵理论的基础上, 通过定义观察反应模式与理想反应模式之间的广义距离, 给出了一种识别被试知识状态的认知诊断方法, 即广义距离判别法。通过DINA模型生成被试的作答反应矩阵进行模拟研究, 以模式判准率和属性判准率作为衡量被试知识状态分类准确率指标, 将广义距离判别法、RSM和AHM的分类A方法分别与DINA模型进行比较。结果表明, 本文提出的广义距离判别法具有更好的分类效果。相似文献

11.

A Polytomous Model of Cognitive Diagnostic Assessment for Graded Data

Dongbo Tu Yan Cai Xuliang Gao Daxun Wang 《International Journal of Testing》2018,18(3):231-252

Pursuing the line of the difference models in IRT (Thissen &; Steinberg, 1986 Thissen, D., &; Steinberg, L. (1986). A taxonomy of item response models. Psychometrika, 51:567–577. doi:10.1007/BF02295596.[Crossref], [Web of Science ®] , [Google Scholar]), this article proposed a new cognitive diagnostic model for graded/polytomous data based on the deterministic input, noisy, and gate (Haertel, 1989 Haertel, E. H. (1989). Using restricted latent class models to map the skill structure of achievement items. Journal of Educational Measurement, 26, 333–352. doi:10.1111/j.1745-3984.1989.tb00336.x.[Crossref], [Web of Science ®] , [Google Scholar]; Junker &; Sijtsma, 2001 Junker, B. W., &; Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25, 258–272. doi:10.1177/01466210122032064.[Crossref], [Web of Science ®] , [Google Scholar]), which is named the DINA model for graded data (DINA-GD). We investigated the performance of a full Bayesian estimation of the proposed model. In the simulation, the classification accuracy and item recovery for the DINA-GD model were investigated. The results indicated that the proposed model had acceptable examinees' correct attribute classification rate and item parameter recovery. In addition, a real-data example was used to illustrate the application of this new model with the graded data or polytomously scored items. 相似文献

12.

认知诊断计算机化自适应测验中新的选题策略:结合项目区分度指标

郭磊郑蝉金边玉芳宋乃庆夏凌翔《心理学报》2016,(7):903-914

当前国内外大部分认知诊断计算机化自适应测验(CD-CAT)主要采用PWKL作为选题策略进行研究。PWKL结合后验分布信息对KL指标进行加权,提高了判准率,但该方法仅利用个体层面信息加权,忽视了项目本身能够提供的信息,属于单源指标。本研究结合认知诊断中的项目区分度信息,对PWKL进行修正,提出了4种新的多源选题策略:GIDPWKL、AIDPWKL、CIDPWKL和KLEDPWKL方法,并在加入曝光控制下与PWKL和互信息法(MIM)进行比较。模拟研究结果表明:(1)在定长测验情景下的绝大多数实验结果表明,测验长度越短,新方法的判准率越高。平均属性/模式判准率最高的是GIDPWKL,之后是AIDPWKL,而CIDPWKL、KLEDPWKL和MIM方法的优势随实验条件不同而不同。(2)在定长测验情景下的绝大多数实验结果表明,题目质量越高,新方法的优势越明显。(3)Q矩阵结构的复杂性会影响不同选题策略的表现。(4)在变长测验情景下,4种新方法和MIM的平均测验长度均要低于PWKL方法,表现最好的是GIDPWKL方法。因此,若实际测验情景与本研究的模拟情景相似,推荐GIDPWKL方法。相似文献

13.

等级反应模型下项目特征曲线等值法在大型考试中的应用 总被引：2，自引：1，他引：1

下载免费PDF全文

周骏欧东明徐淑媛戴海琦漆书青《心理学报》2005,37(6):832-838

在中国最大的资格考试之一的经济专业资格考试中,为保证不同年度间考试的可比性、进行题库建设和为计算机自适应考试做准备,应用项目反应理论中等级反应模型下的项目特征曲线等值法,采用铆测验等值设计,实现了4个年度考试资料的项目参数和能力参数的等值,并成功地组建了经济专业题库。在此基础上,利用等值技术对不同年份试卷的划界分数进行了比较,为经济考试的合格标准制定、确保考试的公平性提供了实证依据。相似文献

14.

基于项目区分度的双目标CD-CAT选题策略

何洁毛秀珍唐倩王霞《心理科学》2022,(1):204-212

针对双目标CD-CAT,将六种项目区分度（鉴别力D、一般区分度GDI、优势比OR、2PL的区分度a、属性区分度ADI、认知诊断区分度CDI）分别与IPA方法结合,得到新的选题策略。模拟研究比较了它们的表现,还考察了区分度分层在控制项目曝光的表现。结果发现：新方法都能明显提高知识状态的判准率和能力估计精度;分层选题均能很好地提高题库利用率。总体上,OR加权能显著提高测量精度;OR分层选题在保证测量精度条件下显著提高项目曝光均匀性。相似文献

15.

使用验证性补偿多维IRT模型进行认知诊断评估

下载免费PDF全文

詹沛达陈平边玉芳《心理学报》2016,48(10):1347-1356

随着人们对测验反馈结果精细化的需求逐渐提高, 具有认知诊断功能的测量方法逐渐受到人们的关注。在认知诊断模型(CDMs)闪耀着光芒的同时, 另一类能够在连续量尺上提供精细反馈的多维IRT模型(MIRTMs)似乎受到些许冷落。为探究MIRTMs潜在的认知诊断功能, 本文以补偿模型为视角, 聚焦于分别属于MIRTMs的多维两参数logistic模型(M2PLM)和属于CDMs的线性logistic模型(LLM); 之后为使两者具有可比性, 可对补偿M2PLM引入验证性矩阵(Q矩阵)来界定题目与维度之间的关系, 进而得到验证性的补偿M2PLM (CC-M2PLM), 并通过把潜在特质按切点划分为跨界属性, 以期使CC-M2PLM展现出其本应具有的认知诊断功能; 预研究表明logistic量尺上的0点可作为相对合理的切点; 然后, 通过模拟研究对比探究CC-M2PLM和LLM的认知诊断功能, 结果表明CC-M2PLM可用于分析诊断测验数据, 且认知诊断功能与直接使用LLM的效果相当; 最后, 以两则实证数据为例来说明CC-M2PLM在实际诊断测验分析中的可行性。相似文献

16.

Wenchao Ma Wenjing Guo 《The British journal of mathematical and statistical psychology》2019,72(2):370-392

Cognitive diagnosis models (CDMs) have been used as psychometric tools in educational assessments to estimate students’ proficiency profiles. However, most CDMs assume that all students adopt the same strategy when approaching problems in an assessment, which may not be the case in practice. This study develops a generalized multiple-strategy CDM for dichotomous response data. The proposed model provides a unified framework to accommodate various condensation rules (e.g., conjunctive, disjunctive, and additive) and different strategy selection approaches (i.e., probability-matching, over-matching, and maximizing). Model parameters are estimated using the marginal maximum likelihood estimation via expectation-maximization algorithm. Simulation studies showed that the parameters of the proposed model can be adequately recovered and that the proposed model was relatively robust to some types of model misspecifications. A set of real data was analysed as well to illustrate the use of the proposed model in practice. 相似文献

17.

Adjusting for information inflation due to local dependency in moderately large item clusters

Edward Hak-sing Ip 《Psychometrika》2000,65(1):73-91

When multiple items are clustered around a reading passage, the local independence assumption in item response theory is often violated. The amount of information contained in an item cluster is usually overestimated if violation of local independence is ignored and items are treated as locally independent when in fact they are not. In this article we provide a general method that adjusts for the inflation of information associated with a test containing item clusters. A computational scheme was presented for the evaluation of the factor of adjustment for clusters in the restrictive case of two items per cluster, and the general case of more than two items per cluster. The methodology was motivated by a study of the NAEP Reading Assessment. We present a simulated study along with an analysis of a NAEP data set.The research was supported under the National Assessment of Educational Progress (Grant No. R999G30002) as administered by the Office of Educational Research and Improvement, U.S. Department of Education. This work was started when the author was at the Division of Statistics and Psychometrics at the Educational Testing Service. The author thanks Juliet Shaffer, Bob Mislevy, Eric Bradlow, three reviewers and an associate editor for their helpful comments on the paper. 相似文献

18.

The area between two item characteristic curves 总被引：1，自引：0，他引：1

Nambury S. Raju 《Psychometrika》1988,53(4):495-502

Formulas for computing the exact signed and unsigned areas between two item characteristic curves (ICCs) are presented. It is further shown that when thec parameters are unequal, the area between two ICCs is infinite. The significance of the exact area measures for item bias research is discussed.The author expresses his appreciation to Jeffrey A. Slinde, Stephen Steinhaus, Audrey Qualls-Payne, Ivo Molenaar, and two anonymous reviewers for their very helpful and constructive comments. 相似文献