首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
自编235个图形推理测验题目。采用铆测验等值设计,以72个联合型瑞文测验题目为铆题,对初中到大学各能力层次的1733名男性进行了测验。使用BILOG MG3.0(边际极大似然估计)对实测数据进行了分析,采用Logsitic 3参数模型。剔除数据与模型拟合不好的题目以及信息函数最大值小于0.3的题目,最终建立一个包含181道题目的题库。该题库可以用于淘汰智力较低的应征青年  相似文献   

2.
瑞文作业的年龄差异及其与“位置法”记忆训练的关系   总被引:1,自引:0,他引:1  
该工作采用华东师大心理学系修订的瑞文测验联合型(CRT—AC),对经过“位置法”记忆训练的青年人、老年人及在年龄、性别、文化和智力水平等方面均相匹配的青年、老年对照进行测验,比较观察力和推理能力的年龄差异,探讨“位置法”记忆训练对这种能力的间接迁移作用。结果表明:1.青年组瑞文作业成绩明显高于老年组;2.当作业难度加大或限定时间时测验,更扩大了年龄差异;3.青年训练组瑞文作业成绩明显高于其对照组,而在老年训练组与其对照组之间则未见差异。  相似文献   

3.
马洁  刘红云 《心理科学》2018,(6):1374-1381
本研究通过高中英语阅读测验实测数据,对比分析双参数逻辑斯蒂克模型 (2PL-IRT)和加入不同数量题组的双参数逻辑斯蒂克模型 (2PL-TRT), 探究题组数量对参数估计及模型拟合的影响。结果表明:(1) 2PL-IRT模型对能力介于-1.50到0.50的被试,能力参数估计偏差较大;(2)将题组效应大于0.50的题组作为局部独立题目纳入模型,会导致部分题目区分度参数的低估和大部分题目难度参数的高估;(3)题组效应越大,将其当作局部独立题目纳入模型估计项目参数的偏差越大。  相似文献   

4.
瑞文标准推理测验在聋童中的使用报告   总被引:15,自引:0,他引:15  
苏永华 《心理学报》1991,24(1):109-114
本研究采用瑞文标准推理测验对9-17岁的聋童的智力发展情况进行了研究,结果表明:聋童智力的发展随着年龄的增长而增长,呈非直线性,各年龄组内不存在显著的性别差异;与中国城市版常模相比,聋童智力的发展水平要明显地低于城市正常儿童.从各年龄组均分差异来看,聋童要落后2至3个年龄段;统计检验还表明同一年龄组中,有残余听力聋童与无残余听力的聋童的智力发展水平差异并不显著;测题难度和区分度分析表明,原测题排列顺序及鉴别力基本适合聋童被试,信度和效度测定表明,瑞文标准推理测验测量聋童的智力可靠而有效.  相似文献   

5.
本文以项目反应理论为基础对联合型瑞文测验进行了项目分析。分析主要包括如下几个方面:项目特征曲线,项目信息函数,测验信息函数,项目效度和项目偏差。分析结果揭示了一些值得探讨的问题以供测验的编制,修订和使用者参考。  相似文献   

6.
瑞文测验联合型中国农村(CRT-RC)修订报告   总被引:3,自引:0,他引:3  
瑞文测验联合型(CRT)经试用已证实是较好的非文字智力测验,由于它具有适用于农村作为智力测查工具而进行修订。在全国农村取样标准化,制订出5—14.5岁各年龄组原始得分的百分等级(标准分),并编制了正态分布下等值的IQ 常模表(分为40′和20′二种时限用)。修订后的农村版测题顺序按难度作了调整。对量表的区分度、信度和效度作了考察,证实测验可靠和有效,可用于评估中国农村儿童智力水平。用农村常模与城市常模相比,发现农村儿童的智能发展水平低于城市儿童。  相似文献   

7.
项目反应理论等级反应模型项目信息量   总被引:7,自引:1,他引:6  
信息函数作为项目反应理论中的一个重要概念,在进行项目和测验分析的工作中,以及在指导测验编制的工作中,有着非常重要的应用价值。信息函数的应用在计算机化自适应测验中更是重中之重,也受到最大关注。然而,关于多级记分项目信息函数特性的研究还比较少。本研究模拟了被试特质水平参数数据和项目参数数据,其中被试特质水平参数生成了121个被试特质水平参数点,项目参数生成了4批不同区分度参数数据,每批数据有126个不同难度等级参数组合模式的项目,每个项目有5个难度等级。通过数据分析后发现,等级反应模型项目提供最大信息量所对应的被试特质水平,是与该项目几个相互临近的难度等级组相适应,既不是只与其中一个难度等级对应,也不一定是与所有难度等级对应。本研究称这种规律为“临近难度等级占优”。这个发现无疑对测验质量分析和测验编制工作,包括计算机化自适应测验编制,具有重要的指导意义  相似文献   

8.
二参数逻辑斯蒂模型项目参数的估计精度   总被引:1,自引:0,他引:1  
项目参数的估计精度对于测验的编制尤其是题库的建立十分重要。目前,国内外对项目参数估计精度的研究,大部分是基于在已知项目参数真值的情况下,运用各种参数估计方法产生新的估计值,再和真值进行偏度(BIAS)和均方根差(RMSE)的比较,从而说明该种估计方法的有效性。但是这种方法不能提供不同的参数真值之间的估计误差的变化规律。为了弥补这一缺陷,本文尝试从项目参数估计信息函数的角度出发研究项目参数的估计精度问题。本研究以二参数Logistic模型作为研究对象,首先定义了项目参数的估计信息函数,然后基于完全随机实验设计,通过模拟研究的方法探索影响项目参数的估计精度的因素,实验共设计了(2×3×2)种情形。研究结果表明:(1)项目参数(a,b)的估计精度均随着被试样本量的增大而提高;(2)被试的能力分布对难度参数的估计精度影响较大,对区分度参数的估计精度影响相对较小;(3)难度参数和区分度参数的估计精度都分别受到参数a和参数b的共同作用。  相似文献   

9.
李金波  王权 《心理科学》2003,26(5):885-886
1 引言  测验信度和效度是衡量测验编制质量的两个主要参数。测验信度和效度受项目难度、区分度以及被试能力分布等多方面因素的制约。IRT利用信息函数的概念提出了用项目参数来调节测验信度的具体方法 ,这是IRT在心理和教育测量学上的一大贡献。但对于如何提高测验效度 ,至今人们还是凭经验来选择测验项目 ,缺乏客观有效的方法。另外 ,项目难度与区分度是密切地关联着的 ,它们协同影响着测验效度。为此 ,在研究项目参数与测验效度间的关系前 ,首先应该研究项目难度与项目区分度间的关系。2 区分度对难度的回归关系的模拟试验2 .1 …  相似文献   

10.
矩阵完成问题的项目生成研究   总被引:1,自引:0,他引:1  
依据Embretson提出的认知设计系统方法,设计并编制了矩阵完成问题的项目生成系统,实际生成了矩阵完成问题测验。探讨矩阵测验与瑞文测验的关系,以及认知模型对矩阵问题的难度和区分度的预测能力。结果表明所设计的认知模型对矩阵项目的性能参数有一定的预测能力,生成的矩阵测验与瑞文测验有基本相同的心理测量属性。可以使用该系统生成的矩阵项目来测量被试的抽象推理能力。  相似文献   

11.
The cognitive reflection test (CRT) is a short measure of a person's ability to resist intuitive response tendencies and to produce a normatively correct response, which is based on effortful reasoning. Although the CRT is a very popular measure, its psychometric properties have not been extensively investigated. A major limitation of the CRT is the difficulty of the items, which can lead to floor effects in populations other than highly educated adults. The present study aimed at investigating the psychometric properties of the CRT applying item response theory analyses (a two‐parameter logistic model) and at developing a new version of the scale (the CRT‐long), which is appropriate for participants with both lower and higher levels of cognitive reflection. The results demonstrated the good psychometric properties of the original, as well as the new scale. The validity of the new scale was also assessed by measuring correlations with various indicators of intelligence, numeracy, reasoning and decision‐making skills, and thinking dispositions. Moreover, we present evidence for the suitability of the new scale to be used with developmental samples. Finally, by comparing the performance of adolescents and young adults on the CRT and CRT‐long, we report the first investigation into the development of cognitive reflection. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

12.
CD–CAT中已有选题策略较注重测验效率,而对题库使用率不够重视。针对此问题,基于DINA模型,引入两种新的选题策略KLED和RHA,同时对HA进行模拟研究。结果显示:PWKL与KLED只在测验效率上具有优势;KLED若按属性向量分层,题库使用率有所提高,KLED比ED更容易推广到其他有显式表达的诊断模型场合;HA、RHA和RP–PWKL可较好兼顾测验效度和题库使用率,但RP-PWKL需设置项目的最大曝光率阈值。两种新选题方法在定长和变长CD-CAT都具有一定的应用价值。  相似文献   

13.
CD-CAT是CDA同CAT的相结合的产物,适用于课堂教学,是教师补救教学、学生自我学习的重要工具。作为CD-CAT重要组成部分的初始阶段项目选取方法是影响测验判准率的重要因素。本文基于现有研究和CDA的项目区分度提出了四种新的初始阶段项目选取方法:CTTID法、CDI法、CTTIDR*法和CDIR*法。通过模拟研究发现,在定长的CD-CAT下,题库质量是HD-HV下,初始阶段结束时,CTTIDR*法的PCCR比现有的T阵法高了.2999,比PWKL高了.1707,其它题库下趋势相同。整个测验结束时CTTIDR*法的判准率仍然是最高的。在变长的CD-CAT下,最大后验概率大于.7、.8、.9下,CTTIDR*法的被试平均测验长度比T阵法分别缩短了2.6170、2.2347、1.7470道题。  相似文献   

14.
认知诊断计算机化自适应测验(Cognitive Diagnosis Computerized Adaptive Testing, CD-CAT)是认知诊断评估和计算机化自适应测验两者的结合,兼具认知诊断和自适应测验的特点。目前,针对CD-CAT的研究几乎都集中在0-1二级计分的数据。然而,在教育和心理评估的实际应用中,存在大量的多级计分的数据。因此,本研究探讨了多级计分CD-CAT(Polytomous CD-CAT, PCD-CAT)的实现技术,并提出了2种新的选题方法。通过模拟实验比较了新选题方法和传统选题方法在PCD-CAT的效果,结果表明:在定长PCD-CAT条件下,2种新选题方法的模式分类准确率是最高的,而在非定长PCD-CAT条件下,2种新方法的测验效率也是最高的。  相似文献   

15.
毛秀珍  辛涛 《心理学报》2013,45(6):694-703
项目曝光率关系到题库建设和测验安全,是计算机化自适应测验(Computerized Adaptive Testing, CAT)需要考虑的重要问题。在认知诊断 CAT 情形下,首先基于传统 CAT 中 a-分层方法的思想提出按项目信息量对题库分层的分层多阶段(Stratified Multistage, SM)选题方法;然后将 SM 方法与项目合格(Item Eligibility, IE)方法相结合得到SMIE方法。在此基础上,开展模拟研究比较SM、IE、SMIE、最大修正优先指标(Maximum Modified Priority Index, MMPI)方法、限制阈值(Restrictive Threshold, RT)方法和限制进度(Restrictive Progressive, RPG)方法的选题表现。总体上,它们的测量精度从高到低依次为IE、SM、SMIE、RT、RPG和MMPI方法;项目曝光分布均匀性的优劣次序为MMPI、RPG、SMIE、RT、SM和IE方法;SMIE和RT方法能较好地平衡测量精度和项目曝光均匀性要求。  相似文献   

16.
This study presents a psychometric evaluation of the Expanded Cognitive Reflection Test (CRT7) based on item response theory. The participants (N?=?1204) completed the CRT7 and provided self-reported information about their cognitive styles through the Preference for Intuition and Deliberation Scale (PID). A two-parameter logistic model was fitted to the data to obtain the item difficulty and discrimination parameters of the CRT7. The results showed that the items had good discriminatory power (αs?=?.80 ? 2.92), but the range of difficulty was restricted (βs ranged from ?.60 to .32). Moreover, the CRT7 showed a pattern of correlations with the PID which was similar to that of the original CRT. When taken together, these results are evidence of the adequacy of the CRT7 as an expanded tool for measuring cognitive reflection; however, one of the newer items (the pig item) was consistently problematic across analyses, and so it is recommended that in future studies it should be removed from the CRT7.  相似文献   

17.
Abstract

Differential item functioning (DIF) is a pernicious statistical issue that can mask true group differences on a target latent construct. A considerable amount of research has focused on evaluating methods for testing DIF, such as using likelihood ratio tests in item response theory (IRT). Most of this research has focused on the asymptotic properties of DIF testing, in part because many latent variable methods require large samples to obtain stable parameter estimates. Much less research has evaluated these methods in small sample sizes despite the fact that many social and behavioral scientists frequently encounter small samples in practice. In this article, we examine the extent to which model complexity—the number of model parameters estimated simultaneously—affects the recovery of DIF in small samples. We compare three models that vary in complexity: logistic regression with sum scores, the 1-parameter logistic IRT model, and the 2-parameter logistic IRT model. We expected that logistic regression with sum scores and the 1-parameter logistic IRT model would more accurately estimate DIF because these models yielded more stable estimates despite being misspecified. Indeed, a simulation study and empirical example of adolescent substance use show that, even when data are generated from / assumed to be a 2-parameter logistic IRT, using parsimonious models in small samples leads to more powerful tests of DIF while adequately controlling for Type I error. We also provide evidence for minimum sample sizes needed to detect DIF, and we evaluate whether applying corrections for multiple testing is advisable. Finally, we provide recommendations for applied researchers who conduct DIF analyses in small samples.  相似文献   

18.
毛秀珍  刘欢  唐倩 《心理科学》2019,(1):187-193
双因子模型假设测验考察一个一般因子和多个组因子,符合很多教育和心理测验的因素结构。“维度缩减”方法将参数估计中多维积分计算化简为多个迭代二维积分,是双因子模型的重要特征。本文针对考察多级评分项目的计算机化自适应测验,首先推导双因子等级反应模型下Fisher信息量的计算,然后推导“维度缩减”方法在项目选择方法中的应用,最后在低、中、高双因子模式题库中比较D-优化方法、后验加权Fisher信息D优化方法(PDO)、后验加权Kullback-Leibler方法(PKL)、连续熵(CEM)和互信息(MI)方法在能力估计的相关、均方根误差、绝对值偏差和欧氏距离的表现。模拟研究表明:(1)双因子模式越强,即一般因子和组因子在项目上的区分度的差异越小,一般因子估计精度降低,组因子估计精度增加,整体能力的估计精度提高;(2)相同实验条件下,连续熵方法的测量精度最高,PKL方法的能力估计精度最低,其它方法的测量精度没有显著差异。  相似文献   

19.
现在,等值越来越受到各考试测验机构及测量学研究人员的重视,特别是项目反应理论等值的优越性更使他们有了信心。然而,很多人却没有注意到被试能力分布形态可能给等值结果带来的影响效果及程度。本研究以项目反应理论两级记分模型的项目参数等值在不同被试能力分布形态下的结果差异作为重点,探讨被试抽样偏差可能给项目特征曲线等值带来的误差问题。研究结果表明,被试能力分布形态会显著地影响项目参数等值的系数,特别地,能力分布的偏态系数与等值方程的截距存在显著的线性相关关系,但能力分布形态的变化对等值方程中斜率的影响并不明显  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号