共查询到15条相似文献,搜索用时 46 毫秒
1.
资格认证测验属于典型的标准参照测验,在国内已得到普遍应用,但在报告心理测量学指标时很少提到标准参照模式的信度估计指标。该文归纳了标准参照测验信度估计的指标体系,分析讨论了适用于资格认证测验的信度估计及其与测验长度、分界标准分布、样本同质性的关系与特征。 相似文献
2.
标准参照测验及其等级线信度的概化理论分析 总被引:1,自引:1,他引:1
在测量工作中,误用经典测验理论方法估计标准参照性测验的整体信度和等级线决策信度的情况非常突出。如,无论测量设计是交叉的还是嵌套的,也无论测验结果是做常模参照性解释,还是做标准参照性解释,测验工作者往往只报告克龙巴赫α系数或经典测验理论中的其它少数几个信度指标,而误把整体信度作为等级线信度的现象则更加普遍,这是十分不妥的。本文借用概化理论中的可靠性指数Φ和Φ(λ)公式,分别针对交叉设计和嵌套设计,就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异,展示了等级决策分数线决策信度的估计方法。 相似文献
3.
随着考试事业的发展,标准参照测验(Criterion Referenced Test,CRT)也越来越多地受到人们的关注,但是它却陷入了用常模参照测验的方法来解释和报告分数的误区。该文从国内外重大标准参照测验CET-4&CET-6、HSK、GRE、CLEP等分数体系入手,通过对其分数体系的共同点分析,探讨出适合于标准参照测验的分数体系,最后指出目前一些测验的分数体系仍然存在的问题。 相似文献
4.
针对标准参照测验及格线设定研究中存在的问题,该文首先分析了Monte Carlo模拟实验法的基本原理,然后提出及格线设定研究的模拟实验思路,即:将专家的主观判断视为概率事件,对专家判断过程中的各种误差的概率分布做出合理假设,依据项目反应理论模型模拟得到专家的主观判断,然后采用重复抽样手段获得专家设定及格线的误差分布,据此衡量及格线的修复能力。文中给出了实例演示.文末讨论了模拟实验法的优点与不足.并展望了后续研究。 相似文献
5.
大量研究表明,一般情况下用合成信度可以较好地估计测验信度。对于合成信度及其置信区间的估计方法,在单维测验的情形已有不少研究。但罕有研究讨论多维测验合成信度的区间估计方法。本文用Delta法推导出计算多维测验合成信度的标准误公式,进而计算置信区间,并用一个例子说明如何编程估计多维测验合成信度及其置信区间。 相似文献
6.
在心理、教育和管理等研究领域中,经常会碰到两水平(两层)的数据结构,如学生嵌套在班级中,员工嵌套在企业中。在两水平研究中,被试通常不是独立的,如果直接用单水平信度公式进行估计,会高估测验信度。文献上已有研究讨论如何更准确地估计两水平研究中单维测验的信度。本研究指出了现有的估计公式的不足之处,用两水平验证性因子分析推导出一个新的信度公式,举例演示如何计算,并给出简单的计算程序。 相似文献
7.
有两种方法可以估计多维测验合成信度的置信区间:Bootstrap法和Delta法.本文用模拟研究比较这两种方法,结果发现,Delta法与Bootstrap法得到结果的差异很小.因为Bootstrap法得到的是实证结果,通常被认为是真值的反映,而Delta法比Bootstrap法简单得多,所以可以用Delta法估计合成信度的置信区间.举例演示如何计算多维测验的合成信度以及用Delta法计算其置信区间. 相似文献
8.
9.
测验信度估计:从α系数到内部一致性信度 总被引:5,自引:0,他引:5
沿用经典的测验信度定义, 简介了信度与a 系数的关系以及a系数的局限。为了推荐替代a系数的信度估计方法, 深入讨论了与a 系数关系密切的同质性信度和内部一致性信度。在很一般的条件下, 证明了a 系数和同质性信度都不超过内部一致性信度, 后者不超过测验信度, 说明内部一致性信度比较接近测验信度。总结出一个测验信度分析流程, 说明什么情况下a 系数还有参考价值; 什么情况下a 系数不再适用, 应当使用内部一致性信度(文献上也常称为合成信度)。提供了计算同质性信度和内部一致性信度的计算程序, 一般的应用工作者可以直接套用。 相似文献
10.
用信息函数法对标准参照测验作质量分析 总被引:1,自引:0,他引:1
根据项目反应理论的信息函数法,以自主开发的“现代教育和心理测量通用分析系统”为工具,对两个大规模实施的标准参照测验进行了测验质量分析。结果说明,信息函数分析法比经典真分数理论分析法,可以获得更丰富、深刻、有针对性的资料,能对项目筛选修订、测验编制开发给出有力的指导,值得大力引进、推广。 相似文献
11.
评分者的信度分析,已从经典测量理论的方法(Kendall和谐系数)发展为基于现代测量理论(如GT)的方法,但由于GT中方差分量估计的工具和途径有限,使该方法的推广受到限制。本文介绍了结构方程建模(SEM)估计GT中方差分量的必要性及原理,并通过对某省直国家机关公务员录用考试结构化面试的评分者信度分析,阐述用SEM估计概化理论中不同设计下的评分者信度研究。 相似文献
12.
This study investigated the effects of candy reinforcement on I.Q. test scores in first and second graders of above-average intelligence. Thirty-six subjects were randomly assigned to one of three groups and either given candy contingent on correct responses, noncontingently, or not given candy. After measuring all subjects on Form L of the revised Stanford Binet, each subject in the contingent group was given an M & M immediately following each correct answer on Form M, while a yoked-comparison subject received the same number of M & M's before responding to a question and therefore without regard to correctness of answers. It was expected that both types of candy administration would produce higher I.Q. change scores than the no-candy control group, but there were no statistically significant differences among the three treatments. The differences between the first and second test scores were 4.17 (contingent), 4.67 (noncontingent), and 1.00 (no reinforcement). Reasons for this failure to replicate previous findings were discussed. 相似文献
13.
初中词汇理解能力量表的编制 总被引:2,自引:2,他引:2
应用项目反应理论为初中各年级编制了词汇理解能力的测验,其中包含了143个多项选择的词汇项目,经过反复预测和大规模的正式测试,证关了这三个测验的量表拟全于2PL模型,项目特征曲线拟合度良好的项目占全体项目数90%以上,能力的一维性也得以确认,经等值化后,各年级的区分度均值分别为0.61(初一),0.59(初二),0.55(初三)难度均值分别为-1.61,-1.30,-0.56。 相似文献
14.
运用词汇判断任务,考察了汉语双字词识别中的多义性效应。实验一运用2个真字任意组合构成的假词(如:镜社)作填充材料,发现多义词识别的优势效应仅仅存在于错误率中。实验二运用与源真词(如:冲锋)同音形似的假词(如:冲烽)作填充材料,促使被试更多地在语义水平上做出判断,结果发现很强的多义词识别的优势效应,这种效应主要表现在低频词上。两个实验结果表明,在词汇判断中用不同的假词作填充词会影响被试的词汇判断策略,从而在不同水平上通达词义。最后,用反馈模型对实验结果进行了解释。 相似文献
15.
本研究有6个从易到难的程序,每个程序有标准数目和比较数目,都是白卡片上的黑圆点。每次试验先呈现标准数目作为样本,强化后撤去,随后同时呈现标准数目和比较数目,令动物作二择一反应。实验结果表明,影响恒河猴数目估计的有两个主要因素,即标准数目和比较数目之间的数间距和这两个数目本身的大小。在数间距为4或大于4时,恒河猴能对50以下的数作出估计;在数间距为2时,恒河猴能对9-25的数作出估计,但不能对27-49的数作估计。作者以为,这里所进行的是一种相对的区域性的数目估计,但它仍然是一种数标签的过程。 相似文献