期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王卓然郭磊边玉芳《心理学报》2014,46(12):1923-1932

检测项目功能差异(DIF)是认知诊断测验中很重要的问题。首先将逻辑斯蒂克回归法(LR)引入认知诊断测验DIF检测, 然后将LR法与MH法和Wald检验法的DIF检验效果进行比较。在比较中同时考察了匹配变量、DIF种类、DIF大小和受测者人数的影响。结果表明：(1) LR法在认知诊断测验DIF检测中, 检验力较高, 一类错误率较低。(2) LR法在检测认知诊断测验的DIF时, 不受认知诊断方法的影响。(3) LR法可以有效区分一致性DIF和非一致性DIF, 并有较高检验力和较低一类错误率。(4)采用知识状态作为匹配变量, 能够得到较理想的检验力和一类错误率。(5) DIF越大, 受测者人数越多, 统计检验力越高, 但一类错误率不受影响。相似文献

2.

认知诊断框架下多级评分题目的DIF检测方法及其应用

李秋云蔡艳汪大勋涂冬波《心理科学》2022,45(4):998-1007

本文对多级计分认知诊断测验的DIF概念进行了界定,并通过模拟实验以及实证研究对四种常见的多级计分DIF检验方法的适用性进行理论以及实践性的探索。研究结果表明：四种方法均能对多级计分认知诊断中的DIF进行有效的检验,且各方法的表现受模型的影响不大;相较于以总分为匹配变量,以KS为匹配变量时更利于DIF的检测;以KS为匹配变量的LDFA方法以及以KS为匹配变量的曼特尔检验方法在检测DIF题目时有着最高的检验力。相似文献

3.

考生作答数据反馈对Angoff标准设定结果的影响

张咏梅田一郝懿李美娟《心理学探新》2016,(1):84-91

以大规模学业成就水平测验为背景,采用组间设计,按类别将专家分为五组,在反馈数据环节随机给予每个专家组未调整的考生真实作答数据和经过上调、下调0.5或1个标准差的调整数据后,采用单因素方差分析与项目反应理论两参数模型考查专家组在标准设定Angoff方法中如何参考使用题目作答数据。结果表明,反馈考生题目作答数据对Angoff标准划定结果有明显影响:反馈未经调整的真实考生题目作答数据影响较大;反馈调整后的高于真实考生题目作答数据影响相对较小,反馈低于真实考生题目作答数据影响相对较大。相似文献

4.

LP方法及其与三种常用DIF检测方法的比较

余跃杜文久周娟秦菊香《心理科学》2016,39(3):720-726

本研究基于项目反应理论,提出了一种检验力高且犯Ⅰ类错误率小的检测DIF的新方法：LP法（Likelihood Procedure）,且以2PLM下对题目进行DIF检验为例介绍此法。本文通过与MH方法、Lord卡方检验法和Raju面积测量法三种常用的检验DIF的方法比较研究LP法的有效性,同时探讨样本容量、测验长度、目标组和参照组能力分布的差异、DIF值大小等相关因素对LP法有效性可能产生的影响。通过模拟研究,得到以下结论：(1)LP法比MH法及Lord卡方法更灵敏且更稳健;(2) LP法比Raju面积测量法更合理;(3)LP法的检验力随着被试样本容量或DIF值的增大而增大;（4）当参照组与目标组的能力无差异时,LP法在各种条件下的检验力比参照组与目标组的能力有差异时的检验力高;（5）LP法对一致性DIF和非一致性DIF都有良好的检验力,且LP法对一致性DIF的检验力比对非一致性DIF的检验力高。LP法可以简便的扩展并运用到多维度、多级评分项目上。相似文献

5.

全国高考英语试题的城乡项目功能差异分析

下载免费PDF全文

关丹丹乔辉陈康韩奕帆《心理学探新》2019,(1):64-69

本研究主要目的是针对高考英语成绩存在的城乡差异,检验这种差异是否来源于试题在城乡上的项目功能差异。如果两个能力本来相同的考生群体在某一试题得分上表现出不同程度的差异,该试题就存在项目功能差异。研究采用试题标准化分数差法,利用STDIF软件逐一分析了2016年三套全国高考英语卷的客观题是否存在城乡上的项目功能差异,在确定客观题没有项目功能差异后,以客观题成绩为匹配变量,采用条件得分图法对书面表达题是否存在城乡上的项目功能差异进行了分析。研究结果显示,高考英语全国I、II、III卷均未发现城乡上的项目功能差异试题,即可以认为高考英语全国卷对城乡不同户籍考生都非常公平、公正,城乡考生在英语成绩上的差异并非题目的公平性所致。相似文献

6.

基于贝叶斯网模型的多级计分诊断测验分类及比较研究

喻晓锋肖遇春秦春影《心理与行为研究》2023,21(1):49-57

贝叶斯网模型提供了一种方便和直观的框架结构来表示变量间的关系,非常适合在诊断测验中对教育评估的内容进行建模。本研究将两种贝叶斯网分类模型与序列多级计分诊断模型S-GDINA进行综合比较。考察两种贝叶斯网分类模型与S-GDINA在Q矩阵正确界定和包含一定比例(25%、 30%)的错误时,两者对被试的分类性能;并将贝叶斯网分类模型应用到实证数据中,展示贝叶斯网分类模型在实证数据中的分类过程和分类性能。研究结果表明：当Q矩阵由专家正确界定时,朴素贝叶斯分类模型的分类效果与S-GDINA模型相差不大,同样可以达到很好的分类效果,树增广的朴素贝叶斯分类模型的分类性能也能达到良好。实证结果进一步表明,将贝叶斯网分类模型应用于教育测量领域中的诊断分类工具是有其优势和可行的,尤其是当测验数据对于所选用诊断模型的拟合较差、测验的Q矩阵中包含错误或测验数据中包含较多的噪音时。相似文献

7.

取样大小对因果强度推理的影响研究

刘雁伶胡竹菁《心理科学》2013,36(3):716-721

摘要：使用纸笔测验探讨表格集中呈现信息条件下取样大小对单一因果关系强度推理的影响,并比较五种模型ΔP、效力PC、SS效力、Support和χ2的预测与实验数据的相关。结果显示：（1）取样大小对不同的问题有不同的影响：高取样在ΔP=0时导致了低估计值,在0<|ΔP|=PPC时没有效果,在|ΔP|相似文献

8.

高中英语阅读测验中题组模型的选择与应用

马洁刘红云《心理科学》2018,(6):1374-1381

本研究通过高中英语阅读测验实测数据,对比分析双参数逻辑斯蒂克模型 (2PL-IRT)和加入不同数量题组的双参数逻辑斯蒂克模型 (2PL-TRT), 探究题组数量对参数估计及模型拟合的影响。结果表明：(1) 2PL-IRT模型对能力介于-1.50到0.50的被试,能力参数估计偏差较大;(2)将题组效应大于0.50的题组作为局部独立题目纳入模型,会导致部分题目区分度参数的低估和大部分题目难度参数的高估;(3)题组效应越大,将其当作局部独立题目纳入模型估计项目参数的偏差越大。相似文献

9.

非参数项目反应理论在维度分析中的运用及评价

张军《心理学探新》2010,30(3)

该文使用非参数项目反应理论的Mokken量表及其构建程序MSP,探索性地分析HSK[初中等]听力、语法结构和阅读三个部分中40个题的潜在维度,并籍此评价此方法的优劣.实验表明:题组是多维的,阅读题的区分能力和一致性最强,能有效地聚合成一类;听力题次之,语法结构题最差;此方法存在很多不足,尤其是题目区分能力对分类的干扰与界定分类阶段的标准问题. 相似文献

10.

允许CAT题目检查的区块题目袋方法

林喆陈平辛涛《心理学报》2015,47(9):1188-1198

允许题目检查能够促进计算机化自适应测验(CAT)在实际中的应用。在不影响能力估计精度和测验公平性的前提下, 允许CAT题目检查能够缓解考生考试焦虑, 减少无关因素引起的测量误差。区块题目袋方法是连续区块方法与题目袋方法的结合, 不仅能允许CAT题目检查, 还能够弥补题目袋方法的不足。研究结果表明：(1)合理作答策略下, 区块题目袋方法的估计精度在低能力水平上要优于题目袋方法; (2)在应对类似Wainer作答策略时, 区块题目袋方法的估计精度在所有能力水平上均优于题目袋方法。(3)随着区块数的增加, 区块题目袋方法的能力估计精度越接近无修改的基线水平。相似文献

11.

用Delta法估计误差相关测验合成信度的置信区间:以FAD为例

叶宝娟杨强《心理学探新》2015,(3):251-256

诸多研究显示用合成信度可以较好地估计测验信度。文献上对合成信度置信区间估计的研究都假设题目测量误差不相关,而在实证研究中,也会遇到误差相关的情况,此时α系数往往高估测验信度,使用合成信度估计测验信度比较准确。本文给出用Delta法计算一般的单维测验合成信度的标准误公式,此公式无论测验误差是否相关都适用,据此可以计算合成信度的置信区间。通过对600名青少年调查发现,中文版FAD分测验"总的功能"的反向题测验误差存在相关,演示了如何估计此分测验的合成信度及其置信区间。相似文献

12.

行政职业能力测验阅读理解能力考查体系研究

卞冉王丽娜林哲婷车宏生阳辉《心理学探新》2013,(5):451-459

本研究对行政职业能力测验中的阅读理解分测验考查何种能力要素进行了深入探讨.研究一首先通过文献法初步概括出行政职业能力测验阅读理解的能力考查体系,进而使用出声思维的方法对该考查体系进行验证和补充,最后通过专家调查论证方法对其进行最终确定.结果表明,行政职业能力测验阅读理解考查了6种能力,分别是提取信息能力、理解意义能力、理解细节能力、分析结构能力、概括能力及推断能力,其中提取信息能力和理解意义能力是基础.在此基础上,研究二使用该能力框架选取合适的行政职业能力测验阅读理解题目,组成一套阅读理解测验,并借助认知诊断方法,通过专家标定测验的Q矩阵,利用实测数据对研究一构建的能力考查体系的完备性进行了验证. 相似文献

13.

新世纪20年国内测验信度研究

温忠麟陈虹熹方杰叶宝娟蔡保贞《心理科学进展》2022,30(8):1682-1691

随着验证性因子分析模型的应用, 信度研究进入了崭新的发展阶段。新世纪前20年国内有关测验信度的研究有三条发展主线。一是基于验证性因子模型的信度发展, 包括同质性系数、合成信度、最大信度等; 二是数据类型的拓展, 包括两水平和追踪数据的信度; 三是信度用途的拓展, 如评分者信度、编码者信度等。对于通常的测验(题目之间的测量误差不相关), 如果α系数够高, 信度就够高; 否则使用合成信度。如果一个统计模型中所有变量的合成信度都很高(超过0.95), 使用显变量建模与使用潜变量建模的结果差别不大; 否则, 使用潜变量建模较好。相似文献

14.

使用题组反应模型缓解局部题目依赖性对多阶段测验的危害

詹沛达高椿雷边玉芳罗照盛《心理科学》2017,40(1):216-223

尽管多阶段测验(MST)在保持自适应测验优点的同时允许测验编制者按照一定的约束条件去建构每一个模块和题板,但建构测验时若因忽视某些潜在的因素而导致题目之间出现局部题目依赖性(LID)时,也会对MST测验结果带来一定的危害。为探究"LID对MST的危害"这一问题,本研究首先介绍了MST和LID等相关概念;然后通过模拟研究比较探讨该问题,结果表明LID的存在会影响被试能力估计的精度但仍为估计偏差较小,且该危害不限于某一特定的路由规则;之后为消除该危害,使用了题组反应模型作为MST施测过程中的分析模型,结果表明尽管该方法能够消除部分危害但效果有限。这一方面表明LID对MST中被试能力估计精度所带来的危害确实值得关注,另一方面也表明在今后关于如何消除MST中由LID造成危害的方法仍值得进一步探究的。相似文献

15.

测验相对拟合检验方法CVLL法在认知诊断中的拓展及应用

单昕彤涂冬波蔡艳《心理科学》2017,40(2):478-484

本文将IRT中表现较好的CVLL法引入到认知诊断领域,同时比较并分析CVLL及认知诊断领域已有的测验相对拟合检验统计量的表现,为实际工作者在认知诊断模型选用上提供方法学支持和借鉴。结果表明:CVLL的表现比其它传统测验相对拟合统计量要好;且当对Q矩阵进行误设时,该统计量也能选择较优的Q矩阵,说明CVLL在Q矩阵侦查上有较好的应用前景。相似文献

16.

网络成瘾的潜在结构:连续的还是分类的?

下载免费PDF全文

马文超边玉芳骆方《心理发展与教育》2012,28(5):554-560

变量的潜在结构是连续的还是分类的不应被随意指定,错误的设定可能导致不正确的结论。本研究的目的在于从实证的角度探索网络成瘾的潜在结构。研究采用了来自中国杭州的2511名初中生对Young网络成瘾量表的有效作答数据,比较了Rasch模型、潜在类别模型和混合Rasch模型与数据的拟合情况。结果表明:2个潜在类别的混合Rasch模型可以最好地反映网络成瘾的潜在结构,说明网络成瘾包含两个存在着质的差异的群体,并且每个群体内的个体间存在量的差异。研究进一步比较了基于混合Rasch模型的分类与传统划界分数分类的区别,结果表明:Young的网络成瘾标准可能具有很小的误判率和较高的漏判率;基于Young网络成瘾测验的修订需要考虑有针对性地增加部分题目。相似文献

17.

基于属性掌握概率的认知诊断计算机化自适应测验选题策略

罗照盛喻晓锋高椿雷李喻骏彭亚风王睿王钰彤《心理学报》2015,47(5):679-688

在认知诊断计算机化自适应测验(CD-CAT)中, 被试对每个属性的掌握概率更直接地反映了被试能力的当前估计值。因此, 基于被试的属性掌握概率来构建选题策略, 选择最能改变被试属性掌握概率的题目作为下一个测验项目, 这应该是一个值得尝试的方案。本文借鉴已有相关研究的数据生成模式进行探索, 模拟实验结果表明：假设属性间相互独立,在定长(长度为16)、变长(长度为16或后验属性掌握模式概率达到0.8)以及短测验(长度分别为4、6、8、10)的情况下, 基于属性掌握概率的选题策略PPWKL和PHKL有较好的分类准确率, 在题目曝光率, 题库使用均匀性等方面也有较好的表现; 与研究较多的PWKL、HKL等策略相比, 也略有优势; 当属性间存在不同程度的相关时, 在定长、变长以及较短的测验条件下, 基于PHKL和MI的测验对知识状态估计精度较好, 基于PPWKL和PHKL的测验综合表现占优。相似文献

18.

关于两种Angoff法比较的模拟实验研究 总被引：1，自引：0，他引：1

汪存友余嘉元《心理科学》2010,(1)

采用模拟实验法比较研究了两种Angoff法——概率法和对错法——设定分数线的准确性和稳定性,结果表明:(1)当真能力低于测验的平均难度时,概率法高估分数线,而对错法低估分数线;反之,当真能力高于测验平均难度时,概率法低估,而对错法高估;(2)当真能力接近测验平均难度时,概率法比对错法更准确;反之,当真能力远高于或低于测验平均难度时,对错法更准确;(3)无论在何种实验条件下,概率法均比对错法更稳定。相似文献

19.

单维项目因素分析：CCFA与IRT估计方法的比较

下载免费PDF全文

刘红云李美娟骆方李小山《心理科学》2012,35(2):441-445

当观测指标变量为二分分类数据时,传统的因素分析方法不再适用。作者简要回顾了SEM框架下的分类数据因素分析模型和IRT框架下的测验题目和潜在能力的关系模型,并对两种框架下主要采用的参数估计方法进行了总结。通过两个模拟研究,比较了SEM框架下GLSc和MGLSc估计方法与IRT框架下MML/EM估计方法的差异。研究结果表明：（1）三种方法中,GLSc得到参数估计的偏差最大,MGLSc和MML/EM估计方法相差不大;（2）随着样本量增大,各种项目参数估计的精度均提高;（3）项目因素载荷和难度估计的精度受测验长度的影响;（4）项目因素载荷和区分度估计的精度受总体因素载荷（区分度）高低的影响;（5）测验项目中阈值的分布会影响参数估计的精度,其中受影响最大的是项目区分度。（6）总体来看,SEM框架下的项目参数估计精度较IRT框架下项目参数估计的精度高。此外,文章还将两种方法在实际应用中应该注意的问题提供了一些建议。相似文献

20.

Bookmark法设置划界分数的研究述评

陈梦竹张敏强《心理科学进展》2009,17(5):1102-1108

基于经典测量理论标准参照测验的传统划界分数设置方法是等级评分或指定划界分数,划界分数设置的方法有待进一步拓展。Bookmark法是基于项目反应理论的划界分数设置方法,学科专家以测验材料的能力参数值为基础,依据掌握百分比分数与被试能力水平的定量关系,设置多重划界分数,相对于传统方法更高效、精确。作者评述了Bookmark法的基本原理和具体实施方法,分析了Bookmark法的应用前景,并对Bookmark法设置划界分数的信效度和标准误估计的研究作了评述。相似文献