期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

涂冬波张心蔡艳戴海琦《心理科学》2014,37(1):205-211

本文将IRT常用资料-模型拟合检验统计量χ^2和G^2引入认知诊断领域,具体讨论了这两个统计量在认知诊断资料-模型拟合检验的可行性及其侦查效果,并讨论了其在实际中的应用,为研究者及实际应用者在认知诊断资料模型拟合检验中提供借鉴及方法学支持。研究发现：（1）χ^2和G^2统计量在认知诊断资料-模型拟合检验中,犯Ⅰ类错误和Ⅱ错误概率均小于5%,表明χ^2和G^2统计量均能有效地侦查项目失拟情况,均可用于认知诊断中的资料-模型拟合检验。（2）测验长度、被试样本容量、认知属性个数等因素均会影响χ^2和G^2统计量的侦查效果。（3）就所犯两类错误率而言,χ^2统计量优于G^2统计量。（4）两统计量均能有效地侦查出项目因属性被错误标定而导致的失拟,因而它们在侦查属性错误标定中有一定的应用前景。相似文献

2.

基于类别水平的多级计分认知诊断Q矩阵修正：相对拟合统计量视角

汪大勋高旭亮蔡艳涂冬波《心理学报》2020,52(1):93-106

多级计分认知诊断模型的开发对认知诊断的发展具有重要作用, 但对于多级计分模型下的Q矩阵修正还有待研究。本研究尝试对多级计分认知诊断Q矩阵修正进行研究, 并聚焦更具诊断价值的基于项目类别水平的Q矩阵修正。将相对拟合统计量应用于多级计分认知诊断Q矩阵修正, 并与已有方法Stepwise方法( Ma & de la Torre, 2019)进行比较。研究表明：BIC方法对多级计分认知诊断模型的Q矩阵修正具有较高的模式判准率和属性判准率, 其对Q矩阵的恢复率也高于Stepwise方法, BIC方法修正后的Q矩阵与数据更加拟合; 在复杂模型中, 相对拟合指标BIC比AIC和-2LL表现更好, 在实践中, 使用者可以选择BIC法进行测验Q矩阵修正; Q矩阵修正效果受到被试人数的影响, 增加被试人数可以提高Q矩阵修正的正确率。总之, 本研究为多级计分认知诊断Q矩阵修正提供了重要的方法支持。相似文献

3.

测验相对拟合检验方法CVLL法在认知诊断中的拓展及应用

单昕彤涂冬波蔡艳《心理科学》2017,40(2):478-484

本文将IRT中表现较好的CVLL法引入到认知诊断领域,同时比较并分析CVLL及认知诊断领域已有的测验相对拟合检验统计量的表现,为实际工作者在认知诊断模型选用上提供方法学支持和借鉴。结果表明:CVLL的表现比其它传统测验相对拟合统计量要好;且当对Q矩阵进行误设时,该统计量也能选择较优的Q矩阵,说明CVLL在Q矩阵侦查上有较好的应用前景。相似文献

4.

Bootstrap区间估计在认知诊断模型误设中的应用

汪文义朱黎君叶宝娟方小婷《心理科学》2020,(6):1498-1505

认知诊断模型选择是认知诊断评估中重要研究问题之一。在实际应用中实践者并不知道真正拟合数据的模型，通常会用模型拟合指标检验模型与数据的拟合程度。从测量结果质量来看，除保证模型与数据拟合之外，还需要重点评价模型诊断结果的信度和效度等。考虑到以往研究大都采用基于信息量的拟合指标去判定模型与数据的匹配性，本研究提出综合考虑模型拟合指标与信度指标用于模型选择或评价模型误设。考虑实验因素为真实模型或分析模型（DINA模型、G-DINA模型、R-RUM模型）、样本量、题量和属性个数，在五因素（3×3×2×2×2）实验设计条件下，比较Bootstrap区间估计的属性分类一致性信度平均数与标准误和常用的拟合统计量-2LL、AIC、BIC对正确模型的选择率。结果表明：-2LL在题目数量多的情况下表现较好，而AIC、BIC在被试量较大的情况下表现较好，在不同的研究条件下，-2LL、AIC、BIC的模型选择率很不稳定，而用Bootstrap法估计的属性分类一致性信度平均数和标准误在不同研究条件的模型选择率较稳定，总体表现较好。相似文献

5.

探索语言水平测验的认知诊断改造和深度分析：以广州市英语学业考试为例

林燕婷陈慧麟陈劲松《心理科学》2018,(4):989-995

本研究探索在通用认知诊断模型和相关检验方法的基础上对现有语言水平测验进行诊断改造和分析,分三步进行探索：1）探索对语言水平测试不同的属性和Q矩阵构建途径;2）探索对语言水平测试基于通用模型的建模和效度验证;3）探索对语言水平测试建模后续的深入分析。研究发现：属性分布和总分分布划分的学生水平一致性较高;学生对属性掌握存在性别差异且属性间的难易层级不同;属性模式分布进一步验证了语言属性间关联程度较高以及通用认知诊断模型和相关检验方法对语言测验的适用性。三步式的建模分析可作为对语言水平测验进行认知诊断改造的参考。相似文献

6.

认知诊断Q矩阵估计(修正)方法

李佳毛秀珍张雪琴《心理科学进展》2021,29(12):2272-2280

Q矩阵代表着项目考察的属性, 反映了项目的重要特征, 其正确性是影响认知诊断分类准确性的关键因素。研究Q矩阵估计(修正)方法具有重要价值。首先, 研究从是否采用认知诊断模型将Q矩阵估计(修正)分为基于认知诊断模型视角下的参数化方法和基于统计视角下的非参数方法。然后, 分别从最优项目质量、最优模型数据拟合和参数估计视角对它们进行分类介绍, 评析不同方法的特征和表现、区别与联系、优势与不足。最后, 提出几个未来研究问题：在复杂测验条件下系统比较各种方法; 校准知识状态和参数估计误差、结合多种思路和方法等多角度提出Q矩阵估计(修正)方法; 研究多级评分项目、混合测验模型、属性多级、属性个数未知甚至Q矩阵元素为连续变量等条件下的Q矩阵估计(修正)方法。相似文献

7.

认知诊断模型下整体和项目拟合指标

宋丽红汪文义戴海琦丁树良《心理学探新》2016,(1):79-83

认知诊断模型能否拟合测验数据,直接决定诊断结果的准确性。目前国内鲜有研究涉及认知诊断测验下的模型-资料拟合检验。文章将模型整体拟合指标及基于PPMC的项目拟合指标应用于认知诊断模型-资料拟合检验。模拟研究基于DINA,R-DINA和R-RUM三个诊断模型检验各拟合指标的表现。结果显示整体和项目拟合指标在识别数据产生模型时皆有较高准确率。采用整体和项目拟合指标比较了三个竞争模型与Tatsuoka带分数减法数据的拟合情况,显示R-RUM拟合最好。相似文献

8.

项目反应理论中模型-资料拟合检验常用统计量

单昕彤谭辉晔刘永吴方文涂冬波《心理科学进展》2014,22(8):1350-1362

项目反应理论(IRT)模型依据项目与被试的特征预测被试的作答表现, 是常用的心理测量模型。但IRT的有效运用依赖于所选用IRT模型与实际数据资料相符合的程度(即模型?资料拟合度, goodness of fit)。只有当所采用IRT分析模型与实际数据资料拟合较好时, IRT的优点和功能才能真正发挥出来(Orlando & Thissen, 2000)。而当所采用IRT模型与资料不拟合或选择了错误的模型, 则会导致如参数估计、测验等值及项目功能差异分析等具有较大误差(Kang, Cohen & Sung, 2009), 给实际工作带来不良影响。因此, 在使用IRT分析时, 应首先充分考察及检验所选用模型与实际数据是否相匹配/相拟合(McKinley & Mills, 1985)。IRT领域中常用模型?资料拟合检验统计量可从项目拟合、测验拟合两个角度进行阐述并比较, 这是心理、教育测量领域的重要主题, 也是测验分析过程中较易忽视的环节, 目前还未见此类公开发表的文章。未来的研究可以在各统计量的实证比较研究以及在认知诊断领域的拓展方面有所发展。相似文献

9.

HO-DINA模型的MCMC参数估计及模型性能研究

下载免费PDF全文

涂冬波蔡艳戴海琦丁树良《心理科学》2011,34(6):1476-1481

认知诊断目前在国内外越来越受到重视,而要真正实现认知诊断,需借助一定的计量学模型即认知诊断模型。国际上,目前已开发近60种认知诊断模型,不同模型又各具特点。本研究重点分析国外研究较成熟的模型--HO-DINA/DINA模型,具体探讨该模型参数估计的实现及模型性能,采用Monte Carlo模拟方法进行,研究发现：(1)本研究对项目参数、属性参数和被试参数估计返真性较好、稳健性较强、HO-DINA模型具有较高的判断率,MCMC算法可行;（2）诊断的属性个数越多,诊断的模式正确率越低,建议实际使用该模型时,诊断的属性个数不宜超过7个;（3）用于诊断的项目数越多,诊断的模式正确率越高,在实际工作中,若要保证有80%以上的模式判准率,则4个属性的至少需20题,5个、6个和7个属性的至少需要40题,8个属性至少需60题。实际运用者应根据实际情况考虑适当的项目数及属性数。相似文献

10.

认知诊断模型发展及其应用方法述评 总被引：1，自引：0，他引：1

陈秋梅张敏强《心理科学进展》2010,18(3):522-529

认知心理学和心理测量学结合派生出的认知诊断理论, 利用现代统计方法和计算机技术作为工具, 诊断被试的认知结构和认知过程。认知诊断有多种模型, 不同的模型有不同的特点及应用条件。模型的选择和认知诊断方法的应用对认知诊断的结果有重要的影响, 因此在选择模型之时需要了解各种认知诊断模型的发展过程及优缺点。相似文献

11.

认知诊断模型中项目水平模型比较统计量的健壮性

刘彦楼张倩萌郑宗军尹昊《心理科学》2019,(5):1251-1259

使用模拟研究方法比较了以往研究中提出的基于观察信息矩阵、三明治矩阵的Wald（分别表示为W_Obs、W_Sw）、似然比（Likelihood Ratio）统计量以及新提出的基于经验交叉相乘信息矩阵的Wald统计量（W_XPD）在模型——数据失拟条件下进行项目水平上模型比较时的表现。结果显示：（1）W_Sw的一类错误控制率有很强的健壮性。（2）W_XPD在Q矩阵错误设定的大多数条件下的表现优于W_Sw。结论：模型—数据拟合良好时可以使用W_Sw进行项目水平上的模型比较,当模型与数据失拟时W_XPD可能是更好的选择。相似文献

12.

Modification indices for the 2-PL and the nominal response model

Cees A. W. Glas 《Psychometrika》1999,64(3):273-294

In this paper, it is shown that various violations of the 2-PL model and the nominal response model can be evaluated using the Lagrange multiplier test or the equivalent efficient score test. The tests presented here focus on violation of local stochastic independence and insufficient capture of the form of the item characteristic curves. Primarily, the tests are item-oriented diagnostic tools, but taken together, they also serve the purpose of evaluation of global model fit. A useful feature of Lagrange multiplier statistics is that they are evaluated using maximum likelihood estimates of the null-model only, that is, the parameters of alternative models need not be estimated. As numerical examples, an application to real data and some power studies are presented. 相似文献

13.

认知诊断模型中项目水平模型比较统计量的健壮性

刘彦楼张倩萌郑宗军尹昊《心理科学》2005,(5):1251-1259

使用模拟研究方法比较了以往研究中提出的基于观察信息矩阵、三明治矩阵的Wald（分别表示为W_Obs、W_Sw）、似然比（Likelihood Ratio）统计量以及新提出的基于经验交叉相乘信息矩阵的Wald统计量（W_XPD）在模型——数据失拟条件下进行项目水平上模型比较时的表现。结果显示：（1）W_Sw的一类错误控制率有很强的健壮性。（2）W_XPD在Q矩阵错误设定的大多数条件下的表现优于W_Sw。结论：模型—数据拟合良好时可以使用W_Sw进行项目水平上的模型比较,当模型与数据失拟时W_XPD可能是更好的选择。相似文献

14.

Hypothesis Testing of the <Emphasis Type="Italic">Q</Emphasis>-matrix

Yuqi Gu Jingchen Liu Gongjun Xu Zhiliang Ying 《Psychometrika》2018,83(3):515-537

The recent surge of interests in cognitive assessment has led to the development of cognitive diagnosis models. Central to many such models is a specification of the Q-matrix, which relates items to latent attributes that have natural interpretations. In practice, the Q-matrix is usually constructed subjectively by the test designers. This could lead to misspecification, which could result in lack of fit of the underlying statistical model. To test possible misspecification of the Q-matrix, traditional goodness of fit tests, such as the Chi-square test and the likelihood ratio test, may not be applied straightforwardly due to the large number of possible response patterns. To address this problem, this paper proposes a new statistical method to test the goodness fit of the Q-matrix, by constructing test statistics that measure the consistency between a provisional Q-matrix and the observed data for a general family of cognitive diagnosis models. Limiting distributions of the test statistics are derived under the null hypothesis that can be used for obtaining the test p-values. Simulation studies as well as a real data example are presented to demonstrate the usefulness of the proposed method. 相似文献

15.

基于认知诊断测评的个性化补救教学效果分析：以“一元一次方程”为例

王立君唐芳詹沛达《心理科学》2020,(6):1490-1497

基于“为学习而测评”理念，以促进学生学习为目的，本研究进行了基于认知诊断测评的个性化补救教学效果分析。首先，以“一元一次方程”章节为例，编制两份平行的认知诊断测评试卷。然后，通过对不同地区（城市和农村）七年级学生的施测与分析，发现城市学生对属性的掌握情况优于农村学生对属性的掌握情况。之后，选择农村学生为补救对象，通过对比基于认知诊断测评和传统教学两种个性化补救教学的效果，发现两种补救教学方法均能提高学习成绩，但前者的补救效果显著优于后者的。总之，本研究结果表明采用基于认知诊断测评的个性化补救教学能够有效促进学生学习，为实践者应用认知诊断测评促进学生学习提供了实践依据。相似文献

16.

G-DINA认知诊断模型在语言测验中的验证

陈慧麟陈劲松《心理科学》2013,36(6):1470-1475

G-DINA模型是DINA 模型的一般化模型,具有补偿性和饱和性两个主要特征。G-DINA模型的补偿性特征契合了语言测验的综合性和多元性,G-DINA模型的饱和性特征则可以比较理想地应对语言技能的抽象性和难区分性。此项研究以代表性的语言测验类型阅读测验为案例,应用G-DINA模型对1029名被试的PISA英语阅读测验结果进行实证分析,证明了两个假设：补偿饱和型认知诊断模型对多元抽象的语言测验的适应程度较高;G-DINA这一新生认知诊断模型可以被用来诊断较为复杂抽象的语言测验,且经得起统计学和语言学理论的双重考验。相似文献