期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

IRT模型参数估计的新方法——MCMC算法 总被引：1，自引：0，他引：1

涂冬波漆书青蔡艳戴海琦丁树良《心理科学》2008,31(1):177-180

本研究主要探讨MCMC算法在IRT模型参数估计中的实现及其估计精度.通过模拟多种实验条件(人少题少、人题适中、人多题多、被试数及其参数固定情况下项目数变化、项目数及其参数固定情况下人数变化),考察两参数和叁参数Logistic模型的MCMC算法对其参数估计的精度,并与国际通用测量程序-Bilog程序(E-M算法)进行比较研究.模拟实验研究表明,上述各种实验条件下,MCMC算法均可用于IRT模型参数估计,且其估计的精度均较Bilog程序(E-M算法)高,值得推广. 相似文献

2.

多维项目反应理论补偿性模型参数估计:基于广义回归神经网络集合

下载免费PDF全文

王鹏孟维璇朱干成张登浩张利会董一萱司英栋《心理学探新》2019,(3):244-249

运用广义回归神经网络(GRNN)方法对小样本多维项目反应理论(MIRT)补偿性模型的项目参数进行估计,尝试解决传统参数估计方法样本数量要求较大的问题。MIRT双参数Logistic补偿模型被设置为二级计分的二维模型。首先,模拟二维能力参数、项目参数值与考生作答矩阵。其次,把通过主成分分析得到的前两个因子在每个题目上的载荷作为区分度的初始值以及题目通过率作为难度的初始值,这两个指标的初始值作为神经网络的输入。集成100个神经网络,其输出值的均值作为MIRT的项目参数估计值。最后,设置2×2种(能力相关水平:0.3和0.7; 两种估计方法:GRNN和MCMC方法)实验处理,对GRNN和MCMC估计方法的返真性进行比较。结果表明,小样本的情况下,基于GRNN集成方法的参数估计结果优于MCMC方法。相似文献

3.

R-RUM的参数估计及性能评价研究

赵顶位戴海琦《心理学探新》2017,(3):231-236

认知诊断作为21世纪一种新的测量范式,在国内外越来越受到重视。该文运用MCMC算法实现了R-RUM的参数估计,并采用Monte Carlo模拟方法探讨其性能。研究结果表明:(1)R-RUM参数估计方法可行,估计精度较高;(2)Q矩阵复杂性和模型参数水平对模型参数估计精度有较大影响,随着r_(jk)*值的增大和Q矩阵复杂性的增加,项目参数和被试参数估计精度逐渐下降;(3)在特定情形下,R-RUM具有一定的稳健性。相似文献

4.

多维测验项目参数的估计：基于SEM与MIRT方法的比较

刘红云骆方王玥张玉《心理学报》2012,44(1):121-132

作者简要回顾了SEM框架下分类数据因素分析(CCFA)模型和MIRT框架下测验题目和潜在能力的关系模型, 对两种框架下的主要参数估计方法进行了总结。通过模拟研究, 比较了SEM框架下WLSc和WLSMV估计方法与MIRT框架下MLR和MCMC估计方法的差异。研究结果表明：(1) WLSc得到参数估计的偏差最大, 且存在参数收敛的问题; (2)随着样本量增大, 各种项目参数估计的精度均提高, WLSMV方法与MLR方法得到的参数估计精度差异很小, 大多数情况下不比MCMC方法差; (3)除WLSc方法外, 随着每个维度测验题目的增多参数估计的精度逐渐增高; (4)测验维度对区分度参数和难度参数的影响较大, 而测验维度对项目因素载荷和阈值的影响相对较小; (5)项目参数的估计精度受项目测量维度数的影响, 只测量一个维度的项目参数估计精度较高。另外文章还对两种方法在实际应用中应该注意的问题提供了一些建议。相似文献

5.

被试作答的偶然性对IRT能力估计的影响研究

戴海崎简小珠《心理科学》2005,28(6):1433-1436

被试能力参数估计是项目反应理论应用研究最重要的技术之一。本文在理想的测验情境下,研究被试作答的偶然性对被试能力值估计的影响。研究设计了被试作答的两种偶然性情况：一是偶然做对了一道项目难度高于其能力值的试题,二是偶然做错了一道或几道项目难度低于其能力值的试题．然后分别探讨了这两种情况下对被试的能力估计所带来的影响,并且就如何消除这些偶然性所带来的影响提出了相应的方法。相似文献

6.

项目功能差异对于认知诊断测验估计准确性的影响

《心理学探新》2015,(3)

为探讨项目功能差异对于认知诊断测验估计准确性的影响,采用模拟研究的方式在3种DIF题目所占比例,3种DIF量下,检测了4种认知诊断测验中存在的DIF对于被试能力估计准确性和题目参数估计准确性的影响。结果发现:(1)DIF对于目标组被试能力估计准确性影响较大;(2)含有DIF的题目所占比例和DIF量增大,都会降低目标组被试能力估计的准确性;(3)非一致性DIF对于被试能力估计准确性的影响大于一致性DIF;(4)只有含有DIF题目的题目参数估计准确性会下降;(5)随着DIF量增大,含有DIF题目的题目参数估计准确性下降增多,但不受含DIF题目所占比例的影响。相似文献

7.

单维项目因素分析：CCFA与IRT估计方法的比较

下载免费PDF全文

刘红云李美娟骆方李小山《心理科学》2012,35(2):441-445

当观测指标变量为二分分类数据时,传统的因素分析方法不再适用。作者简要回顾了SEM框架下的分类数据因素分析模型和IRT框架下的测验题目和潜在能力的关系模型,并对两种框架下主要采用的参数估计方法进行了总结。通过两个模拟研究,比较了SEM框架下GLSc和MGLSc估计方法与IRT框架下MML/EM估计方法的差异。研究结果表明：（1）三种方法中,GLSc得到参数估计的偏差最大,MGLSc和MML/EM估计方法相差不大;（2）随着样本量增大,各种项目参数估计的精度均提高;（3）项目因素载荷和难度估计的精度受测验长度的影响;（4）项目因素载荷和区分度估计的精度受总体因素载荷（区分度）高低的影响;（5）测验项目中阈值的分布会影响参数估计的精度,其中受影响最大的是项目区分度。（6）总体来看,SEM框架下的项目参数估计精度较IRT框架下项目参数估计的精度高。此外,文章还将两种方法在实际应用中应该注意的问题提供了一些建议。相似文献

8.

分离型的多级评分认知诊断模型开发及其应用研究

吴方文涂冬波刘明矾《心理科学》2017,40(1):209-215

本文基于DINO模型开发出一种分离型的多级评分认知诊断模型(P-DINO模型),并采用Monte Carlo模拟与实证研究相结合的范式,探讨了新模型的性能与有效性。结果表明:(1)P-DINO模型参数估计精度较好,参数估计的稳健性较强。(2)采用MCMC算法可以实现该模型的参数估计,估计结果较理想。(3)测验长度的增加能有效提高模型的判准率,被试人数的增加对判准率的提高相对较小,属性个数的增加会降低判准率。(4)在抑郁症状评估中,P-DINO模型的表现要优于DINO模型与传统的抑郁症状评估。相似文献

9.

改进3PL模型参数估计的MCMC算法

《心理科学》2010,(5)

本文首先用马尔科夫链蒙特卡洛(MCMC)算法和EM算法进行IRT模型参数估计模拟实验,并探讨了两种算法的参数估计精度,然后在分析三参数Logistic(3PL)模型参数估计精度的基础上改进模型并对其进行参数估计。结果表明,MCMC算法估计IRT模型的参数精度均优于EM算法,并且MCMC算法在估计3PL模型参数方面具有更明显的优势;在样本量较小的情况下,MCMC算法能较好地估计3PL模型参数,估计精度略低于2PL模型;3PL模型的项目参数确定性低是参数估计精度略低于2PL模型的主要原因;采用改进模型可以提高项目参数的确定性,进而得到更优的参数估计精度。相似文献

10.

协变量相关对时变效应模型参数估计的影响

黄熙彤张敏强《心理科学》2021,(5):1231-1240

时变效应模型被广泛应用于密集追踪研究中,研究者往往会同时纳入2个或以上协变量。然而,协变量相关对其参数估计的影响较少被研究者关注。本研究在不同类型协变量的情境下,采用蒙特卡洛模拟,探讨协变量相关对时变效应模型参数估计的影响,结果表明：（1）在两种协变量类型的情境下,协变量相关都会影响时变效应模型斜率函数β_1和斜率函数β_2参数估计的准确性;（2）两种协变量类型的情境下,协变量相关和样本量的交互作用都会影响时变效应模型斜率函数β_1和斜率函数β_2参数估计的准确性;（3）两种协变量类型的情境下,样本量、观测数据缺失率主要通过主效应影响时变效应模型参数估计的准确性。相似文献

11.

Simple imputation methods versus direct likelihood analysis for missing item scores in multilevel educational data

Kadengye DT Cools W Ceulemans E Van den Noortgate W 《Behavior research methods》2012,44(2):516-531

Missing data, such as item responses in multilevel data, are ubiquitous in educational research settings. Researchers in the item response theory (IRT) context have shown that ignoring such missing data can create problems in the estimation of the IRT model parameters. Consequently, several imputation methods for dealing with missing item data have been proposed and shown to be effective when applied with traditional IRT models. Additionally, a nonimputation direct likelihood analysis has been shown to be an effective tool for handling missing observations in clustered data settings. This study investigates the performance of six simple imputation methods, which have been found to be useful in other IRT contexts, versus a direct likelihood analysis, in multilevel data from educational settings. Multilevel item response data were simulated on the basis of two empirical data sets, and some of the item scores were deleted, such that they were missing either completely at random or simply at random. An explanatory IRT model was used for modeling the complete, incomplete, and imputed data sets. We showed that direct likelihood analysis of the incomplete data sets produced unbiased parameter estimates that were comparable to those from a complete data analysis. Multiple-imputation approaches of the two-way mean and corrected item mean substitution methods displayed varying degrees of effectiveness in imputing data that in turn could produce unbiased parameter estimates. The simple random imputation, adjusted random imputation, item means substitution, and regression imputation methods seemed to be less effective in imputing missing item scores in multilevel data settings. 相似文献

12.

2PLM下缺失数据处理方法及其比较

汪文义宋丽红罗芬丁树良《心理科学》2016,39(6):1500-1507

项目反应理论(IRT)是用于客观测量的现代教育与心理测量理论之一,广泛用于缺失数据十分常见的大尺度测验分析。IRT中两参数逻辑斯蒂克模型(2PLM)下仅有完全随机缺失机制下缺失反应和缺失能力处理的EM算法。本研究推导2PLM下缺失反应忽略的EM 算法,并提出随机缺失机制下缺失反应和缺失能力处理的EM算法和考虑能力估计和作答反应不确定性的多重借补法。研究显示：在各种缺失机制、缺失比例和测验设计下,缺失反应忽略的EM算法和多重借补法表现理想。相似文献

13.

Effects of Differential Item Functioning on Examinees' Test Performance and Reliability of Test

Yi-Hsuan Lee Jinming Zhang 《International Journal of Testing》2017,17(1):23-54

Simulations were conducted to examine the effect of differential item functioning (DIF) on measurement consequences such as total scores, item response theory (IRT) ability estimates, and test reliability in terms of the ratio of true-score variance to observed-score variance and the standard error of estimation for the IRT ability parameter. The objective was to provide bounds of the likely DIF effects on these measurement consequences. Five factors were manipulated: test length, percentage of DIF items per form, item type, sample size, and level of group ability difference. Results indicate that the greatest DIF effect was less than 2 points on the 0 to 60 total score scale and about 0.15 on the IRT ability scale. DIF had a limited effect on the ratio of true-score variance to observed-score variance, but its influence on the standard error of estimation for the IRT ability parameter was evident for certain ability values. 相似文献

14.

融合反应时的多级评分IRT模型开发及其应用研究

下载免费PDF全文

汪大勋郭莹莹《心理学探新》2022,(3)

当前大多数融合反应时的IRT模型仅适用于0-1评分数据资料,极大的限制了IRT反应时模型在实际中的应用。本文在传统的二级计分反应时IRT模型基础上,拟开发一种多级评分反应时模型。在层次建模框架下,分别采用拓广分部评分模型(GPCM)和对数正态模型构建融合反应时的多级评分IRT模型(本文记为JRT-GPCM),并采用全息贝叶斯MCMC算法实现新模型的参数估计。为验证新开发的JRT-GPCM模型的可行性及其在实践中的应用,本文开展了两项研究:研究1为模拟实验研究,研究2为新模型在大五人格-神经质分量表中的应用。研究1结果表明,JRT-GPCM模型的估计精度较高,且具有较好的稳健性。研究2表明,被试的潜在特质与作答速度具有一定的正相关,且本研究结果支持Ferrando和Lorenzo-Seva(2007)提出的“距离-困难度假设”,即当被试的潜在特质与项目的难度阈限距离越远,那么被试会花费更多的时间对项目进行作答。总之,本研究为拓展反应时信息在心理测量及教育中的应用提供新的方法支持。相似文献

15.

Estimating Optimal Weights for Compound Scores: A Multidimensional IRT Approach

Hendrika G. van Lier Liseth Siemons Mart A.F.J. van der Laar 《Multivariate behavioral research》2013,48(6):914-924

A method is proposed for constructing indices as linear functions of variables such that the reliability of the compound score is maximized. Reliability is defined in the framework of latent variable modeling [i.e., item response theory (IRT)] and optimal weights of the components of the index are found by maximizing the posterior variance relative to the total latent variable variance. Three methods for estimating the weights are proposed. The first is a likelihood-based approach, that is, marginal maximum likelihood (MML). The other two are Bayesian approaches based on Markov chain Monte Carlo (MCMC) computational methods. One is based on an augmented Gibbs sampler specifically targeted at IRT, and the other is based on a general purpose Gibbs sampler such as implemented in OpenBugs and Jags. Simulation studies are presented to demonstrate the procedure and to compare the three methods. Results are very similar, so practitioners may be suggested the use of the easily accessible latter method. A real-data set pertaining to the 28-joint Disease Activity Score is used to show how the methods can be applied in a complex measurement situation with multiple time points and mixed data formats. 相似文献

16.

Bayesian Modal Estimation for the One-Parameter Logistic Ability-Based Guessing (1PL-AG) Model

Shaoyang Guo Tong Wu Chanjin Zheng Yanlei Chen 《应用心理检测》2021,45(3):195

The calibration of the one-parameter logistic ability-based guessing (1PL-AG) model in item response theory (IRT) with a modest sample size remains a challenge for its implausible estimates and difficulty in obtaining standard errors of estimates. This article proposes an alternative Bayesian modal estimation (BME) method, the Bayesian Expectation-Maximization-Maximization (BEMM) method, which is developed by combining an augmented variable formulation of the 1PL-AG model and a mixture model conceptualization of the three-parameter logistic model (3PLM). By comparing with marginal maximum likelihood estimation (MMLE) and Markov Chain Monte Carlo (MCMC) in JAGS, the simulation shows that BEMM can produce stable and accurate estimates in the modest sample size. A real data example and the MATLAB codes of BEMM are also provided. 相似文献

17.

基于增长模型的非随机缺失数据处理:选择模型和极大似然方法

陈楠刘红云《心理科学》2015,(2):446-451

对含有非随机缺失数据的潜变量增长模型,为了考察基于不同假设的缺失数据处理方法:极大似然(ML)方法与DiggleKenward选择模型的优劣,通过Monte Carlo模拟研究,比较两种方法对模型中增长参数估计精度及其标准误估计的差异,并考虑样本量、非随机缺失比例和随机缺失比例的影响。结果表明,符合前提假设的Diggle-Kenward选择模型的参数估计精度普遍高于ML方法;对于标准误估计值,ML方法存在一定程度的低估,得到的置信区间覆盖比率也明显低于Diggle-Kenward选择模型。相似文献