期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

丁树良熊建华罗芬吴锐甘小方涂白《心理学报》2005,37(5):674-680

受假设检验方法的启发,该文引出了一种基于项目反应理论的新等值方法——平方根等值准则。它具有一些特点：定义式中答对、答错概率同时出现而不能互相替代;极易从0—1评分模式的版本转换到多级评分版本;它可以看成是Haebara等值准则的加权形式。以等值系数估计值的误差大小为衡量标准,以Wilcoxon符号秩检验为依据,大量的Monte Carlo模拟结果显示了一种有趣的现象,即等值方法的运用范围既与项目参数估计精度有关,又与等值系数A的范围有关,但与另一个等值系数B的范围无关。当项目参数估计精度较高或中等而A取值在0.9～1.3之间,新方法往往比Stocking_Lord方法和Haebara方法的估计误差小且有显著性差异,当项目参数估计精度较低时,而A从1.0～2.0时新方法都有优越性。相似文献

2.

项目反应理论框架下的新等值方法——对数对比等值法 总被引：3，自引：2，他引：1

丁树良熊建华毛萌萌《心理学报》2003,35(6):835-841

项目反应理论有一些以除法形式给出的多级评分模型,若采用Haebara等值法、Stocking_Lord等值法或对称相对熵等值法进行测验等值,都因其对初值有较高要求而可能导致失败。针对这一类模型,我们给出了一种新的等值方法——对数对比等值法。这种方法收敛快,对迭代初值要求低,所得结果精度较高,可以为其他等值方法提供良好的初值。研究表明,对数对比等值法还改进和推广了0-1评分的两参数Logistic模型的Logit变换等值法相似文献

3.

检验导出的等值新方法及其表现探讨

熊建华丁树良雷宁宁《心理学探新》2007,27(1):70-74

该文受Berkson将检验方法用于估计未知参数的启发,根据三个拟合优度统计量导出三种新的求取等值系数的方法,即:平方根等值方法(Square Root criterion,SQRTcrit)、对称相对熵等值方法(Symmetric Relative Entropy criterion,SREcrit)、加权等值方法(Weighted criterion,Wcrit),即Haebara准则的加权式。虽然在被检验的两个分布列很接近时,这三个多项拟合优度检验方法是渐近等价的,然而用它们求取等值系数时,Monte-Carlo模拟结果表明这三种新等值方法的行为表现存在差异。它们之间的差异和随机误差的大小有密切关系,即与项目参数估计的精度有关;还与等值系数A的范围有关。相似文献

4.

项目反应理论观察分数核等值的影响因素

王少杰张敏强黄菲菲黄丽芳袁琪婷《心理科学》2022,45(4):988-997

探究带宽选择方法、样本量、题目数量、等值设计、数据模拟方式对项目反应理论观察分数核等值的影响。通过两种数据模拟方式,获得研究数据,并计算局部与全域评价指标。研究发现,在随机组设计中,带宽选择方法表现相似;考生样本量和题目数量影响甚微。在非等组设计中,惩罚法与Silverman经验准则表现优异;增加题目量可降低百分相对误差和随机误差;增加样本量导致百分相对误差变大,随机误差减小。数据模拟方式可影响等值评价。未来应重点关注等值系统评估。相似文献

5.

模型参数点估计的可靠性：以CDM为例

刘彦楼陈启山王一鸣姜晓彤《心理学报》2023,(10):1712-1728

心理学研究中,不恰当的模型参数估计框架或收敛准则严重影响模型参数点估计的可靠性,进而影响到研究结论的可靠性。本研究提出了基于MLE-EM的CDM模型参数估计新框架,以及新收敛判断方法。通过模拟研究与实证数据分析的方式,探索了新参数估计框架和新收敛判断方法的表现,并与已有模型参数估计框架及收敛判断方法进行了比较。结果显示,新的模型参数估计框架及收敛准则的表现优于已有的模型参数估计框架及收敛准则,能有效提高模型参数点估计的可靠性。相似文献

6.

不同铆测验设计下多维IRT等值方法的比较

刘玥刘红云《心理学报》2013,45(4):466

实际应用中测验往往具有多维结构, 如果仍采用单维IRT方法进行等值, 会得到不准确的结果。因此对于多维结构的测验, 需要使用多维IRT等值方法来实现参数的转换。基于共同题设计, 文章通过模拟研究的方法, 考察了不同铆测验设计下几种多维IRT等值方法的表现, 同时考虑了测验长度、两个维度题目数量的比例、铆测验长度、铆测验的选择策略、两个维度之间的相关和等值群体的能力水平差异六个因素的影响。所比较的多维IRT等值方法有：均值/均值(MM)方法, 均值/标准差(MS)方法, Stoking-Lord (SL)方法, Haebara (HB)方法, 最小平方(LS)方法。结果显示：(1) SL, HB和LS方法得到的等值误差均方根最小, 且在各条件下表现较为稳定。(2) MM和MS方法在非等组条件下呈现出很大的误差均方根。(3)铆测验设计对SL, HB和LS方法的等值结果没有显著影响。(4)在两个维度之间的相关较高, 测验长度和铆测验长度较长, 等值群体的能力水平没有差异的条件下, SL, HB和LS方法得到的等值误差均方根最小。相似文献

7.

含题组的测验等值

吴锐丁树良甘登文《心理学报》2010,42(3):434-442

题组越来越多地出现在各类考试中, 采用标准的IRT模型对有题组的测验等值, 可能因忽略题组的局部相依性导致等值结果的失真。为解决此问题, 我们采用基于题组的2PTM模型及IRT特征曲线法等值, 以等值系数估计值的误差大小作为衡量标准, 以Wilcoxon符号秩检验为依据, 在几种不同情况下进行了大量的Monte Carlo模拟实验。实验结果表明, 考虑了局部相依性的题组模型2PTM绝大部分情况下都比2PLM等值的误差小且有显著性差异。另外, 用6种不同等值准则对2PTM等值并评价了不同条件下等值准则之间的优劣。相似文献

8.

等级反应模型项目特征曲线法等值研究 总被引：2，自引：0，他引：2

戴海崎《心理学探新》2000,20(3):49-53

主、客观题并用的测验建项目反应理论题库需作多级模型项目参数等值,本研究推演了等级反应模型下项目特征曲线等值方法并在实际等值试验中获得成功. 相似文献

9.

对15种测验等值方法的比较研究 总被引：20，自引：2，他引：18

谢小庆《心理学报》2000,32(2):217-222

此项研究通过试验方法对４种基于经典测验理论的等值方法和１１种基于项目反应理论的等值方法进行了比较研究。研究数据为ＨＳＫ正式考试的数据,研究采用了较为可靠的检验标准。研究结果表明,在有些情况下,进行等值处理并非是最好的选择;在题库建设中,某些ＩＲＴ方法是可行的;至少对于ＨＳＫ数据,不论是单、双、三参数,不论是ｍｓ方法和ｍｍ方法,ＩＲＴ参数转换等值方法的误差都较大,均不足取。相似文献

10.

项目特征曲线等值的抽样误差

罗照盛熊建华漆书青戴海琦丁树良《心理学报》2007,39(4):723-729

现在,等值越来越受到各考试测验机构及测量学研究人员的重视,特别是项目反应理论等值的优越性更使他们有了信心。然而,很多人却没有注意到被试能力分布形态可能给等值结果带来的影响效果及程度。本研究以项目反应理论两级记分模型的项目参数等值在不同被试能力分布形态下的结果差异作为重点,探讨被试抽样偏差可能给项目特征曲线等值带来的误差问题。研究结果表明,被试能力分布形态会显著地影响项目参数等值的系数,特别地,能力分布的偏态系数与等值方程的截距存在显著的线性相关关系,但能力分布形态的变化对等值方程中斜率的影响并不明显相似文献

11.

Age,criterion flexibility,and item recognition

Lione J. North Darlene Olfman Daniel R. Caldera Emily Munoz 《Neuropsychology, development, and cognition. Section B, Aging, neuropsychology and cognition》2018,25(3):390-405

We examined young and older adults' ability to flexibly adapt response criterion on a recognition test when the probability that a test item had been studied was cued by test color. One word color signaled that the probability of the test item being old was 70% and a second color signaled that the probability of the test item being new was 70%. Young and older adults demonstrated similar levels of criterion shifting in response to color cues. Moreover, although both young and older adults were slowed when test-item color incorrectly predicted test-item status, the extent of slowing did not differ across age group. Putative measures of cognitive control predicted recognition accuracy but not the degree to which criterion changed with test-item color. These results suggest that adaptive criterion shifting does not tax cognitive control or, if it does require effort, may be no more onerous for older than for young adults. 相似文献

12.

测验等值：从IRT到MIRT

谢晶张厚粲《心理学探新》2009,29(5):67-71

等值作为保证测验公平性的技术手段,一直是测验理论研究的重要方面。MIRT理论的发展证明了题目和测验是复杂的,传统的单维模型已经不能满足对人和题目／测验之间关系的探讨需求。目前MIRT等值研究主要有两种取向,其中一种取向是研究多维数据对IRT等值会产生什么样的影响;第二种取向是通过开发新的计算方法和计算工具研究MIRT等值过程。MIRT等值研究最重要的是对等值方法和过程实现的研究,目前已取得一些进展,在进行这些研究的过程中最重要的考虑因素是控制其误差影响因素。相似文献

13.

Observed-score equating as a test assembly problem

Wim J. van der Linden Richard M. Luecht 《Psychometrika》1998,63(4):401-418

A set of linear conditions on item response functions is derived that guarantees identical observed-score distributions on two test forms. The conditions can be added as constraints to a linear programming model for test assembly that assembles a new test form to have an observed-score distribution optimally equated to the distribution on an old form. For a well-designed item pool and items fitting the IRT model, use of the model results into observed-score pre-equating and prevents the necessity ofpost hoc equating by a conventional observed-score equating method. An empirical example illustrates the use of the model for an item pool from the Law School Admission Test.The authors are most indebted to Norman D. Verhelst for suggesting Proposition 4 and its proof, to the Law School Admission Council (LSAC) for making available the data set, and to Wim M. M. Tielen for his computational assistance. 相似文献

14.

EDITOR'S NOTE

《International Journal of Testing》2013,13(1):1-2

In the framework of a linear logistic testing model, Mislevy, Sheehan, and Wingersky (1993) showed how to incorporate collateral information in estimating item parameters required for test equating. The purpose of the study was to explore the feasibility of applying this method to equate tests constructed for college entrance examination by comparing its results with those of the item response theory (IRT) true-score equating. Overall, the equating results based on collateral information are relatively comparable with those of IRT equating. In terms of R2's, the prediction equations for item characteristics are good to excellent. The significant levels of correlation coefficients between IRT calibrated b (difficulty level) and predicted b parameters range from around .01 to .05. The goodness of fit of true-score test characteristic curves (TCCs) based on collateral information to IRT true-score TCCs are excellent. Results of the study are discussed in light of factors that may affect the validity of using collateral information in test equating. 相似文献

15.

无铆题情况下测验分数等值方法探索——构造铆测验法

刘玥刘红云《心理科学》2015,(6):1504-1512

研究旨在探索无铆题情况下,使用构造铆测验法,实现测验分数等值。研究一和研究二分别探索题目难度排序错误、铆题难度差异对构造铆测验法的影响。结果表明：（1）等组条件下,随着错误铆题比例,难度排序错误程度,铆题难度差异增大,构造铆测验法的等值误差逐渐增大,随机等组法的等值误差较为稳定;不等组条件下,构造铆测验法的等值误差均小于随机等组法;（2）对于构造铆测验法,在不等组条件下,铆测验长度越短,等值误差越大。相似文献