期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王怡唐文清刘晶张敏强李明黎光明《心理科学进展》2014,22(5):881-888

测验垂直等值是指将测试同一心理特质的不同水平的测验转换到同一个分数量尺上的过程。IRT与MIRT是实现垂直等值的主要方法。IRT无需假设被试的能力分布, 参数估计不依赖于样本, 是构建垂直量表的有效方法, 但测验不满足单维假设时其应用受到限制。MIRT结合IRT和因素分析的特点对IRT进行了拓展, 可更有效估计多维测验的项目参数和被试能力参数, 在垂直等值中有重要应用。已有研究主要探讨IRT和MIRT在垂直等值应用中的适用性、标定方法和参数估计方法, 比较研究两种方法的特性。未来研究应纳入更多变量条件进行比较研究, 拓展方法的应用。相似文献

2.

不同铆测验设计下多维IRT等值方法的比较

刘玥刘红云《心理学报》2013,45(4):466

实际应用中测验往往具有多维结构, 如果仍采用单维IRT方法进行等值, 会得到不准确的结果。因此对于多维结构的测验, 需要使用多维IRT等值方法来实现参数的转换。基于共同题设计, 文章通过模拟研究的方法, 考察了不同铆测验设计下几种多维IRT等值方法的表现, 同时考虑了测验长度、两个维度题目数量的比例、铆测验长度、铆测验的选择策略、两个维度之间的相关和等值群体的能力水平差异六个因素的影响。所比较的多维IRT等值方法有：均值/均值(MM)方法, 均值/标准差(MS)方法, Stoking-Lord (SL)方法, Haebara (HB)方法, 最小平方(LS)方法。结果显示：(1) SL, HB和LS方法得到的等值误差均方根最小, 且在各条件下表现较为稳定。(2) MM和MS方法在非等组条件下呈现出很大的误差均方根。(3)铆测验设计对SL, HB和LS方法的等值结果没有显著影响。(4)在两个维度之间的相关较高, 测验长度和铆测验长度较长, 等值群体的能力水平没有差异的条件下, SL, HB和LS方法得到的等值误差均方根最小。相似文献

3.

含题组的测验等值

吴锐丁树良甘登文《心理学报》2010,42(3):434-442

题组越来越多地出现在各类考试中, 采用标准的IRT模型对有题组的测验等值, 可能因忽略题组的局部相依性导致等值结果的失真。为解决此问题, 我们采用基于题组的2PTM模型及IRT特征曲线法等值, 以等值系数估计值的误差大小作为衡量标准, 以Wilcoxon符号秩检验为依据, 在几种不同情况下进行了大量的Monte Carlo模拟实验。实验结果表明, 考虑了局部相依性的题组模型2PTM绝大部分情况下都比2PLM等值的误差小且有显著性差异。另外, 用6种不同等值准则对2PTM等值并评价了不同条件下等值准则之间的优劣。相似文献

4.

测验等值：从IRT到MIRT

谢晶张厚粲《心理学探新》2009,29(5):67-71

等值作为保证测验公平性的技术手段,一直是测验理论研究的重要方面。MIRT理论的发展证明了题目和测验是复杂的,传统的单维模型已经不能满足对人和题目／测验之间关系的探讨需求。目前MIRT等值研究主要有两种取向,其中一种取向是研究多维数据对IRT等值会产生什么样的影响;第二种取向是通过开发新的计算方法和计算工具研究MIRT等值过程。MIRT等值研究最重要的是对等值方法和过程实现的研究,目前已取得一些进展,在进行这些研究的过程中最重要的考虑因素是控制其误差影响因素。相似文献

5.

多维数据IRT真分数等值和IRT观察分数等值研究

《心理学探新》2015,(1)

实际应用中测验往往具有多维结构,如果仍采用单维方法进行等值,会得到不准确的结果。研究基于随机等组设计下英语测验,使用MCMC方法估计题目参数,将单维IRT真分数等值和观察分数等值方法推广到多维。比较了四种等值方法:单维IRT真分数等值和观察分数等值,多维近似单维IRT真分数等值和观察分数等值。结果显示,当数据符合多维结构时:(1)基于多维测验的IRT真分数等值和观察分数等值方法优于单维IRT真分数等值和IRT观察分数等值方法;(2)多维IRT观察分数等值略优于多维IRT真分数等值,但是两者之间的差异较小。相似文献

6.

题目难度分布和样本容量对两种CTT等值结果的影响

戴步云罗照盛《心理学探新》2012,32(3):246-251

基于经典测验理论(CTT)的等值方法主要有线性等值和等百分位等值两种。在不同情境下,不同的等值方法会产生不同的等值结果。本研究以真分数等值为依据,用蒙特卡洛模拟研究方法,综合比较了各种题目难度分布条件下和各种样本容量条件下两种CTT等值方法的等值结果。研究结果表明:(1)线性等值的误差受题目难度分布影响较大,等百分位等值的误差几乎不受题目难度分布影响。(2)线性等值的误差几乎不受样本容量的影响,等百分位等值的误差受样本容量影响较大。(3)不论题目难度分布如何,只要样本容量足够大,等百分位等值的效果都比线性等值更好。相似文献

7.

等级反应模型下项目特征曲线等值法在大型考试中的应用 总被引：2，自引：1，他引：1

周骏欧东明徐淑媛戴海琦漆书青《心理学报》2005,37(6):832-838

在中国最大的资格考试之一的经济专业资格考试中,为保证不同年度间考试的可比性、进行题库建设和为计算机自适应考试做准备,应用项目反应理论中等级反应模型下的项目特征曲线等值法,采用铆测验等值设计,实现了4个年度考试资料的项目参数和能力参数的等值,并成功地组建了经济专业题库。在此基础上,利用等值技术对不同年份试卷的划界分数进行了比较,为经济考试的合格标准制定、确保考试的公平性提供了实证依据。相似文献

8.

高中会考等值方法的比较研究

张光旭杨志明《心理学探新》1999,(4)

本研究采用随机等组设计与铆测验相结合的方案。首先验证了两随机等组的平均数、方差和分布状态无显著差异,再用随机等组的等值分作为等值效标来检验其他等值方法的误差,然后比较了在铆测验设计中三种线性等值方法（在不同总体权重下）的误差值,以选出适合高中合考的等值方法及总体权重。经研究发现：会考等值宜采用Tucker观察分数线性等值方法,并宜选择总体权重W1＝1。相似文献

9.

铆题比例对等值精度的影响

蔡艳丁树良涂冬波《心理学探新》2009,29(2):86-89

在非等组铆测验设计中,铆题量占测验长度的多大比例比较合适,这个比例随测验长度的增大可否发生变化？这些是实际工作者和研究者非常关心的问题。该文在固定被试数和测验长度的条件下,探查铆题量所占测验长度比例（简称铆题比例）的变化对等值精度的影响,讨论了在实际等值中如何在等值精度和铆题比例之间取得平衡的问题。并在模拟研究的条件下,给出了几个反应实际等值精度的指标。相似文献

10.

基于RSM对Q矩阵相同的无锚题测验的等值

下载免费PDF全文

高慧健辛涛李峰《心理科学》2011,34(4):957-964

传统锚题-非等组设计下的测验等值,等值要求的满足具有主观性,并且由于锚题失效或难以获得等因素的影响,则该方法的使用受到了限制。因此,本研究基于规则空间模型的Q矩阵理论,生成两个Q矩阵相同但无锚题的测验的共同受测者,使用共同组设计,利用同时性估计的方法对测验进行等值,并考虑了作答失误率和测验结构对等值稳定性的影响。结果表明:共同组设计同时估计方法的等值稳定性取得了优于或等于锚题-非等组同时估计方法;失误率的增大也会导致等值稳定性的下降;并且不同的测验结构也对等值稳定性产生了影响,其中直线型和收敛型结构稳定性较好,发散型和无结构型较差。相似文献

11.

项目特征曲线等值的抽样误差

罗照盛熊建华漆书青戴海琦丁树良《心理学报》2007,39(4):723-729

现在,等值越来越受到各考试测验机构及测量学研究人员的重视,特别是项目反应理论等值的优越性更使他们有了信心。然而,很多人却没有注意到被试能力分布形态可能给等值结果带来的影响效果及程度。本研究以项目反应理论两级记分模型的项目参数等值在不同被试能力分布形态下的结果差异作为重点,探讨被试抽样偏差可能给项目特征曲线等值带来的误差问题。研究结果表明,被试能力分布形态会显著地影响项目参数等值的系数,特别地,能力分布的偏态系数与等值方程的截距存在显著的线性相关关系,但能力分布形态的变化对等值方程中斜率的影响并不明显相似文献

12.

对15种测验等值方法的比较研究 总被引：20，自引：2，他引：18

谢小庆《心理学报》2000,32(2):217-222

此项研究通过试验方法对４种基于经典测验理论的等值方法和１１种基于项目反应理论的等值方法进行了比较研究。研究数据为ＨＳＫ正式考试的数据,研究采用了较为可靠的检验标准。研究结果表明,在有些情况下,进行等值处理并非是最好的选择;在题库建设中,某些ＩＲＴ方法是可行的;至少对于ＨＳＫ数据,不论是单、双、三参数,不论是ｍｓ方法和ｍｍ方法,ＩＲＴ参数转换等值方法的误差都较大,均不足取。相似文献

13.

一种新的等值准则及其适用范围的探讨 总被引：3，自引：0，他引：3

丁树良熊建华罗芬吴锐甘小方涂白《心理学报》2005,37(5):674-680

受假设检验方法的启发,该文引出了一种基于项目反应理论的新等值方法——平方根等值准则。它具有一些特点：定义式中答对、答错概率同时出现而不能互相替代;极易从0—1评分模式的版本转换到多级评分版本;它可以看成是Haebara等值准则的加权形式。以等值系数估计值的误差大小为衡量标准,以Wilcoxon符号秩检验为依据,大量的Monte Carlo模拟结果显示了一种有趣的现象,即等值方法的运用范围既与项目参数估计精度有关,又与等值系数A的范围有关,但与另一个等值系数B的范围无关。当项目参数估计精度较高或中等而A取值在0.9～1.3之间,新方法往往比Stocking_Lord方法和Haebara方法的估计误差小且有显著性差异,当项目参数估计精度较低时,而A从1.0～2.0时新方法都有优越性。相似文献

14.

Observed-score equating as a test assembly problem

Wim J. van der Linden Richard M. Luecht 《Psychometrika》1998,63(4):401-418

A set of linear conditions on item response functions is derived that guarantees identical observed-score distributions on two test forms. The conditions can be added as constraints to a linear programming model for test assembly that assembles a new test form to have an observed-score distribution optimally equated to the distribution on an old form. For a well-designed item pool and items fitting the IRT model, use of the model results into observed-score pre-equating and prevents the necessity ofpost hoc equating by a conventional observed-score equating method. An empirical example illustrates the use of the model for an item pool from the Law School Admission Test.The authors are most indebted to Norman D. Verhelst for suggesting Proposition 4 and its proof, to the Law School Admission Council (LSAC) for making available the data set, and to Wim M. M. Tielen for his computational assistance. 相似文献

15.

Analytic smoothing for equipercentile equating under the common item nonequivalent populations design 总被引：1，自引：0，他引：1

Michael J. Kolen David Jarjoura 《Psychometrika》1987,52(1):43-59

A cubic spline method for smoothing equipercentile equating relationships under the common item nonequivalent populations design is described. Statistical techniques based on bootstrap estimation are presented that are designed to aid in choosing an equating method/degree of smoothing. These include: (a) asymptotic significance tests that compare no equating and linear equating to equipercentile equating; (b) a scheme for estimating total equating error and for dividing total estimated error into systematic and random components. The smoothing technique and statistical procedures are explored and illustrated using data from forms of a professional certification test. 相似文献

16.

Marginal maximum likelihood estimation of item response theory (IRT) equating coefficients for the common-examinee design

Haruhiko Ogasawara 《The Japanese psychological research》2001,43(2):72-82

A method of estimating item response theory (IRT) equating coefficients by the common-examinee design with the assumption of the two-parameter logistic model is provided. The method uses the marginal maximum likelihood estimation, in which individual ability parameters in a common-examinee group are numerically integrated out. The abilities of the common examinees are assumed to follow a normal distribution but with an unknown mean and standard deviation on one of the two tests to be equated. The distribution parameters are jointly estimated with the equating coefficients. Further, the asymptotic standard errors of the estimates of the equating coefficients and the parameters for the ability distribution are given. Numerical examples are provided to show the accuracy of the method. 相似文献