期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王卓然郭磊边玉芳《心理学报》2014,46(12):1923-1932

检测项目功能差异(DIF)是认知诊断测验中很重要的问题。首先将逻辑斯蒂克回归法(LR)引入认知诊断测验DIF检测, 然后将LR法与MH法和Wald检验法的DIF检验效果进行比较。在比较中同时考察了匹配变量、DIF种类、DIF大小和受测者人数的影响。结果表明：(1) LR法在认知诊断测验DIF检测中, 检验力较高, 一类错误率较低。(2) LR法在检测认知诊断测验的DIF时, 不受认知诊断方法的影响。(3) LR法可以有效区分一致性DIF和非一致性DIF, 并有较高检验力和较低一类错误率。(4)采用知识状态作为匹配变量, 能够得到较理想的检验力和一类错误率。(5) DIF越大, 受测者人数越多, 统计检验力越高, 但一类错误率不受影响。相似文献

2.

项目功能差异对于认知诊断测验估计准确性的影响

《心理学探新》2015,(3)

为探讨项目功能差异对于认知诊断测验估计准确性的影响,采用模拟研究的方式在3种DIF题目所占比例,3种DIF量下,检测了4种认知诊断测验中存在的DIF对于被试能力估计准确性和题目参数估计准确性的影响。结果发现:(1)DIF对于目标组被试能力估计准确性影响较大;(2)含有DIF的题目所占比例和DIF量增大,都会降低目标组被试能力估计的准确性;(3)非一致性DIF对于被试能力估计准确性的影响大于一致性DIF;(4)只有含有DIF题目的题目参数估计准确性会下降;(5)随着DIF量增大,含有DIF题目的题目参数估计准确性下降增多,但不受含DIF题目所占比例的影响。相似文献

3.

基于多维题组反应模型的项目功能差异检验探究

魏丹张丹慧刘红云《心理科学》2020,(1):206-214

本文将多维题组反应模型（MTRM）应用到多维题组测验的项目功能差异（DIF）检验中,通过模拟研究和应用研究探究MTRM在DIF检验中的准确性、有效性和影响因素,并与忽略题组效应的多维随机系数多项Logistic模型（MRCMLM）进行对比。结果表明：（1）随着样本量的增大,MTRM对有效DIF值检出率增高,错误率降低,在不同条件下结果的稳定性更高;（2）与MRCMLM相比,基于MTRM的DIF检验模型检验率更高,受到其他因素的影响更小;（3）当测验中题组效应较小时,MTRM与MRCMLM结果差异较小,但是MTRM模型拟合度更高。相似文献

4.

题组项目功能差异（DIF）检验方法的应用探索

郭聪颖边玉芳《心理学探新》2013,(5):423-429

篇章形式的阅读测验是一种典型的题组测验,在进行项目功能差异（DIF）检验时需要采用与之匹配的DIF检验方法.基于题组反应模型的DIF检验方法是真正能够处理题组效应的DIF检验方法,能够提供题组中每个项目的DIF效应测量,是题组DIF检验方法中较有理论优势的一种,主要使用的方法是Rasch题组DIF检验方法.该研究将Rasch题组DIF检验方法引入篇章阅读测验的DIF检验中,对某阅读成就测验进行题组DIF检验,结果显示,该测验在内容维度和能力维度的部分子维度上出现了具有显著DIF效应的项目,研究从测验公平的角度对该测验的进一步修改及编制提出了一定的建议.研究中进一步将Rasch题组DIF检验方法与基于传统Rasch模型的DIF检验方法以及变通的题组DIF检验方法的结果进行比较,研究结果体现了进行题组DIF检验的必要性与优越性.研究结果表明,在篇章阅读测验中,能够真正处理题组效应的题组DIF检验方法更加具有理论优势且对于阅读测验的编制与质量的提高具有更重要的意义. 相似文献

5.

OR法在DIF检验中的应用——以英语学业能力测验为例

刘楚铜金如意何颖张敏强高方昕《心理科学》2023,(2):470-477

本文将比值比方法（odds ratios method, OR）这一DIF检验方法应用到某英语测验的DIF检验中,介绍OR法进行DIF检验的完整流程,并将其检验结果与应用较为广泛的Waldχ2检验和似然比检验（likelihood ratio test, LRT）的检验结果进行比较,以进一步验证OR法在实证研究中的适用性。研究结果显示,OR法与LRT法结果差异较小且OR法步骤更简便,说明OR法与LRT法在DIF检验中的表现相似,LRT法适用于实证研究中,因此OR法同样适用于实证研究的DIF检验。相似文献

6.

变通的题组项目功能差异检验方法在篇章阅读测验中的应用 总被引：1，自引：0，他引：1

郑蝉金郭聪颖边玉芳《心理学报》2011,43(7):830-835

篇章形式的阅读测验在语文学科考试与语言能力测试中占有越来越重要的地位。篇章阅读测验是一种典型的题组测验, 因此需要采用能够处理题组效应的统计方法进行分析。在进行项目功能差异(DIF)检验时, 也需要采用与之匹配的DIF检验方法。目前能够处理题组效应的DIF检验方法主要包括变通的题组DIF检验方法和基于题组反应模型的DIF检验方法, 基于题组反应模型的DIF检验方法由于实现过程繁琐, 目前只停留在理论探讨阶段。本研究将变通的题组DIF检验方法及其效应值指标引入篇章阅读测验的DIF检验中, 能够解决篇章阅读测验中DIF检验与测量的问题, 效应值指标能够为如何处理有DIF效应的题组项目提供重要依据。本研究首先选用非题组DIF检验方法与变通的题组DIF检验方法对一份试卷进行DIF检验, 两种方法的比较结果体现了进行题组DIF检验的必要性与优越性, 然后选用变通的题组DIF检验方法中有代表性的四种方法对某阅读成就测验进行题组DIF检验。研究结果表明, 在篇章阅读测验中, 能够处理题组效应的DIF检验方法较传统的DIF检验方法具有较大的优越性。相似文献

7.

认知诊断框架下多级评分题目的DIF检测方法及其应用

李秋云蔡艳汪大勋涂冬波《心理科学》2022,45(4):998-1007

本文对多级计分认知诊断测验的DIF概念进行了界定,并通过模拟实验以及实证研究对四种常见的多级计分DIF检验方法的适用性进行理论以及实践性的探索。研究结果表明：四种方法均能对多级计分认知诊断中的DIF进行有效的检验,且各方法的表现受模型的影响不大;相较于以总分为匹配变量,以KS为匹配变量时更利于DIF的检测;以KS为匹配变量的LDFA方法以及以KS为匹配变量的曼特尔检验方法在检测DIF题目时有着最高的检验力。相似文献

8.

IRT_Δb法和修正LR法对矩阵取样DIF检验的有效性

张勋李凌艳刘红云孙研《心理学报》2013,(8)

矩阵取样测验包含多个题册,单个题册的总分不能直接作为匹配变量用于 DIF 检测。本研究首先基于模拟数据,同时采用 I RT_Δb法,以及用 I RT模型估计的考生能力作为匹配变量修订后的 L R法对矩阵取样测验进行DIF检测,分析二者进行DIF检测的有效性及其相关影响因素;并根据已有的LR法DIF判断标准划定出I RT_Δb法分类标准;最后使用实证数据加以验证。结果显示：矩阵取样测验中, I RT_Δb法和修正LR法均能较好地区分DIF量不同的题目;样本量、题册中DIF题目的比例和考生群体间真实能力的差异对两种方法的检验力、犯I类错误的概率和分类结果都有较大影响。相似文献

9.

认知诊断测验中基于信息矩阵的多群组DIF检验

孙小坚刘彦楼王诗梦辛涛宋乃庆周蔓《心理科学》2022,45(3):710-717

基于改进的Wald统计量,将适用于两群组的DIF检测方法拓展至多群组的项目功能差异（DIF）检验;改进的Wald统计量将分别通过计算观察信息矩阵（Obs）和经验交叉相乘信息矩阵（XPD）而得到。模拟研究探讨了此二者与传统计算方法在多个群组下的DIF检验情况,结果表明：（1）Obs和XPD的一类错误率明显低于传统方法,DINA模型估计下Obs和XPD的一类错误率接近理论水平;（2）样本量和DIF量较大时,Obs和XPD具有与传统Wald统计量大体相同的统计检验力。相似文献

10.

分类数据测量等价性检验方法及其比较：项目阈值(难度)参数的组间差异性检验

刘红云李冲张平平骆方《心理学报》2012,44(8):1124-1136

测量工具满足等价性是进行多组比较的前提, 测量等价性的检验方法主要有基于CFA的多组比较法和基于IRT的DIF检验两类方法。文章比较了单维测验情境下基于CCFA的DIFFTEST检验方法和基于IRT模型的IRT-LR检验方法, 以及多维测验情境下DIFFTEST和基于MIRT的卡方检验方法的差异。通过模拟研究的方法, 比较了几种方法的检验力和第一类错误, 并考虑了样本总量、样本量的组间均衡性、测验长度、阈值差异大小以及维度间相关程度的影响。研究结果表明：(1)在单维测验下, IRT-LR是比DIFFTEST更为严格的检验方法; 多维测验下, 在测验较长、测验维度之间相关较高时, MIRT-MG比DIFFTEST更容易检验出项目阈值的差异, 而在测验长度较短、维度之间相关较小时, DIFFTEST的检验力反而略高于MIRT-MG方法。(2)随着阈值差值增加, DIFFTEST、IRT-LR和MIRT-MG三种方法的检验力均在增加, 当阈值差异达到中等或较大时, 三种方法都可以有效检验出测验阈值的不等价性。(3)随着样本总量增加, DIFFTEST、IRT-LR和MIRT-MG方法的检验力均在增加; 在总样本量不变, 两组样本均衡情况下三种方法的检验力均高于不均衡的情况。(4)违背等价性题目个数不变时, 测验越长DIFFTEST的检验力会下降, 而IRT-LR和MIRT-MG检验力则上升。(5) DIFFTEST方法的一类错误率平均值接近名义值0.05; 而IRT-LR和MIRT-MG方法的一类错误率平均值远低于0.05。相似文献

11.

The Effect of Propensity Scores on DIF Analysis: Inference on the Potential Cause of DIF

HyeSun Lee 《International Journal of Testing》2014,14(4):313-338

Differential item functioning (DIF) analysis is important in terms of test fairness. While DIF analyses have mainly been conducted with manifest grouping variables, such as gender or race/ethnicity, it has been recently claimed that not only the grouping variables but also contextual variables pertaining to examinees should be considered in DIF analyses. This study adopted propensity scores to incorporate the contextual variables into the gender DIF analysis. In this study, propensity scores were used to control for the contextual variables that potentially affect the gender DIF. Subsequent DIF analyses with the Mantel-Haenszel (MH) procedure and the Logistic Regression (LR) model were run with the propensity score applied reference (males) and focal groups (females) through propensity score matching. The propensity score embedded MH model and LR model detected fewer number of gender DIF than the conventional MH and LR models. The propensity score embedded models, as a confirmatory approach in DIF analysis, could contribute to hypothesizing an inference on the potential cause of DIF. Also, salient advantages of propensity score embedded DIF analysis models are discussed. 相似文献

12.

中国少数民族考生与外国考生HSK成绩的公平性分析 总被引：3，自引：0，他引：3

任杰谢小庆《心理学探新》2002,22(2):51-56

该研究利用项目功能差异(Differential Item Functioning,简称DIF)理论,对HSK考生中不同两个群体——外国人和中国国内的少数民族,进行题目的反应分析。考查HSK的题目是否存在不利于某一群体。具体做法：采用MH和SIBTEST方法检测DIF,利用标准化的离散分析方法和SIBTEST的项目束分析法鉴别DIF的真伪,并寻找造成DIF的原因。由数据分析的结果可知,HSK(初、中等)A卷对对外国考生和中国国内的少数民族考生存在一些有DIF的题目。相似文献

13.

Assessing differential functioning in a satisfaction scale

Collins WC Raju NS Edwards JE 《The Journal of applied psychology》2000,85(3):451-461

In this study, an item response theory-based differential functioning of items and tests (DFIT) framework (N. S. Raju, W. J. van der Linden, & P. F. Fleer, 1995) was applied to a Likert-type scale. Several differential item functioning (DIF) analyses compared the item characteristics of a 10-item satisfaction scale for Black and White examinees and for female and male examinees. F. M. Lord's (1980) chi-square and the extended signed area (SA) measures were also used. The results showed that the DFIT indices consistently performed in the expected manner. The results from Lord's chi-square and the SA procedures were somewhat varied across comparisons. A discussion of these results along with an illustration of an item with significant DIF and suggestions for future DIF research are presented. 相似文献

14.

经济法试题DIF的参数法检测研究 总被引：2，自引：1，他引：1

李力戴海崎董圣鸿欧冬明《心理学探新》2007,27(4):88-92

该研究基于项目反应理论的Samejima等级反应模型(GRM),在MULTILOG软件支持下,应用参数检测方法,对某年度全国性资格考试的某科目试卷中经济法部分的21个项目做了DIF检测分析。结果如下:存在性别DIF的项目一个,存在民族DIF的项目四个,存在工作性质DIF的项目一个。其中项目68在民族层面上表现为一致性DIF,项目64既存在民族DIF又存在工作性质DIF。通过对项目统计量、反应曲线的分析和专家的讨论,文章最后还分析了产生这些DIF的几个可能的原因。相似文献

15.

Effects of Differential Item Functioning on Examinees' Test Performance and Reliability of Test

Yi-Hsuan Lee Jinming Zhang 《International Journal of Testing》2017,17(1):23-54

Simulations were conducted to examine the effect of differential item functioning (DIF) on measurement consequences such as total scores, item response theory (IRT) ability estimates, and test reliability in terms of the ratio of true-score variance to observed-score variance and the standard error of estimation for the IRT ability parameter. The objective was to provide bounds of the likely DIF effects on these measurement consequences. Five factors were manipulated: test length, percentage of DIF items per form, item type, sample size, and level of group ability difference. Results indicate that the greatest DIF effect was less than 2 points on the 0 to 60 total score scale and about 0.15 on the IRT ability scale. DIF had a limited effect on the ratio of true-score variance to observed-score variance, but its influence on the standard error of estimation for the IRT ability parameter was evident for certain ability values. 相似文献

16.

三种常用DIF检测方法的比较研究 总被引：6，自引：1，他引：5

董圣鸿马世晔《心理学探新》2001,21(1):43-48

本研究在对DIF作出新的更为严格的界定、对三种常用的DIF检澍方法进行详细介绍的基础上．以1999年高考英语试卷75道选择题为研究材料,对三种常用的DIF检测方法进行了实证研究。结果表明：MH方法与SIBTEST方法检测的敏感性较STND方法高;MH方法与SIBTEST方法检出的一致性很高;SIBTEST方法具有较好的性能,在实际应用中可以作为首选的方法;在进行DIF检测时,样本容量在1000左右为宜。相似文献

17.

不同铆测验设计下多维IRT等值方法的比较

刘玥刘红云《心理学报》2013,45(4):466

实际应用中测验往往具有多维结构, 如果仍采用单维IRT方法进行等值, 会得到不准确的结果。因此对于多维结构的测验, 需要使用多维IRT等值方法来实现参数的转换。基于共同题设计, 文章通过模拟研究的方法, 考察了不同铆测验设计下几种多维IRT等值方法的表现, 同时考虑了测验长度、两个维度题目数量的比例、铆测验长度、铆测验的选择策略、两个维度之间的相关和等值群体的能力水平差异六个因素的影响。所比较的多维IRT等值方法有：均值/均值(MM)方法, 均值/标准差(MS)方法, Stoking-Lord (SL)方法, Haebara (HB)方法, 最小平方(LS)方法。结果显示：(1) SL, HB和LS方法得到的等值误差均方根最小, 且在各条件下表现较为稳定。(2) MM和MS方法在非等组条件下呈现出很大的误差均方根。(3)铆测验设计对SL, HB和LS方法的等值结果没有显著影响。(4)在两个维度之间的相关较高, 测验长度和铆测验长度较长, 等值群体的能力水平没有差异的条件下, SL, HB和LS方法得到的等值误差均方根最小。相似文献

18.

我国一大型考试等值的铆题参数漂移检验

下载免费PDF全文

刘铁川戴海琦赵玉《心理科学》2012,35(2):446-451

设置铆题来链接不同测验形式是一种常用的等值设计。但受到曝光等因素影响,铆题功能在不同施测时间会发生改变。本研究采用MH检验和logistic回归考察我国一大型考试等值的铆题质量,结果发现,有22个铆题发生参数漂移,铆题的难度参数和区分度参数可能发生漂移;这些铆题中大部分在二次使用时无法通过模型拟合检验;若不删除参数发生漂移的铆题导致较大的系统等值误差,应将铆题参数漂移检验作为等值中的一步必要工作。相似文献