共查询到20条相似文献,搜索用时 140 毫秒
1.
诸多研究显示用合成信度可以较好地估计测验信度。文献上对合成信度置信区间估计的研究都假设题目测量误差不相关,而在实证研究中,也会遇到误差相关的情况,此时α系数往往高估测验信度,使用合成信度估计测验信度比较准确。本文给出用Delta法计算一般的单维测验合成信度的标准误公式,此公式无论测验误差是否相关都适用,据此可以计算合成信度的置信区间。通过对600名青少年调查发现,中文版FAD分测验"总的功能"的反向题测验误差存在相关,演示了如何估计此分测验的合成信度及其置信区间。 相似文献
2.
对中国7种主要的心理学杂志,于1998-2008年间发表的与EPQ有关的研究报告或论文做信度概化分析,并与Caruso等人对其他国家的EPQ信度概化分析结果作比较。分析结果表明:中外心理量表使用者都存在严重的“信度引入”的状况;分量表的分数的标准差是信度系数最重要的预测变量;但其他预测变量有所不同。提供的启示是:使用心理量表时一定要报告当前样本的信度系数;不符合心理量表特性要求而增加项目,不一定能提高测验结果的信度。 相似文献
3.
领导干部结构化面试信度的多元概括化理论分析 总被引:1,自引:0,他引:1
本研究尝试运用多元概括化理论对北京市某区副处级干部准入资格结构化面试测评数据进行测量信度分析,为提高领导干部考试与测评工作科学化水平提供了有益的实证依据。主要结论有:(1)本次结构化面试难度适中,区分度较高;(2)各测评要素及合成分数的类信度系数均较高,合成分数的测量信度高于单个测评要素的测量信度;(3)各测评要素及合成分数的类信度系数随着考官数量的增加而增加,且从确保信度和降低成本考虑,考官数量以5-9位为宜;(4)在这次面试测评中,各项测评要素间的相关系数较高,这为目前在选拔面试中将各项测评要素得分进行合成提供了依据,说明用合成分数计算总分具有一定的合理性。 相似文献
4.
元分析是根据现有研究对感兴趣的主题得出比较准确和有代表性结论的一种重要方法,在心理、教育、管理、医学等社会科学研究中得到广泛应用。信度是衡量测验质量的重要指标,用合成信度能比较准确的估计测验信度。未见有文献提供合成信度元分析方法。本研究在比较对参数进行元分析的三种模型优劣的基础上,在变化系数模型下推出合成信度元分析点估计及区间估计的方法;以区间覆盖率为衡量指标,模拟研究表明本研究提出的合成信度元分析区间估计的方法得当;举例说明如何对单维测验的合成信度进行元分析。 相似文献
5.
大量研究表明,一般情况下用合成信度可以较好地估计测验信度。对于合成信度及其置信区间的估计方法,在单维测验的情形已有不少研究。但罕有研究讨论多维测验合成信度的区间估计方法。本文用Delta法推导出计算多维测验合成信度的标准误公式,进而计算置信区间,并用一个例子说明如何编程估计多维测验合成信度及其置信区间。 相似文献
6.
α系数与测验的同质性 总被引:1,自引:0,他引:1
本文从α系数与同质性测验、平行测验和基本τ-等价测验间的关系及三种测验间的关系入手,分析了α系数作为测验同质性信度估计的局限性;根据Jreskog给出的信度定义(α系数),讨论了λ系数与α一致性信度、Guttman 下限之间的关系,说明了在测验同质的前提下,λ系数在估计测验内部一致性时与α系数相比的优点.同时用模拟数据的方法就不同情景下测验的结构维度与α系数、Guttman λ2下限和λ系数之间的关系进行了探讨. 相似文献
7.
8.
对过去20年(1994~2013年)间国内有关大五人格测验的研究文献进行信度概化分析。结果表明:(1)检索到的文献中约68.15%存在"信度引入"现象;(2)未加权估计中,A和O的均值最低,N和C的均值最高,国内所得结果均略低于国外(O除外),而后者的变异性略大(E除外);采用α系数效果量方法,在随机效应模型中,N的估计值最高,O和A的估计值最低;(3)回归分析显示,分数均值、量表来源和南北地域差异是N维度信度的预测变量;量表来源、文章专业类型、测验版本和测验记分对E维度信度具有预测作用;样本量、文章专业类型和量表来源是O维度信度的预测变量;量表来源、文章专业类型、项目数和样本类型对A维度信度具有预测作用;量表来源、项目数、文章专业类型和测验记分是C维度信度的预测变量。 相似文献
9.
如何正确使用信度估计公式 总被引:11,自引:1,他引:10
本文对教育和心理测验中的多种信度估计方法展开讨论,得到以下几个结论: 1.在估计测验的同质性信度方面,α系数较优,先前几种估计公式或者是其等价形式,或者是其在某种情况下的一个特例;2.在估计测验的信度系数D(T)/D(X)方面,β公式比α系数更优;最后提出估计信度系数的另一个新公式β_1并讨论它和β公式的关系。 相似文献
10.
阅读理解测试通常为多个题目共用一个语篇材料,属于典型的题组题型,传统的基于单题的信度估计方法将会高估测试的信度。研究采用概化理论模型,通过比较传统信度系数以及不同的概化理论测量设计模型,探讨不同方法对阅读理解测量精度估计的差别;同时,通过改变语篇和题目的数量来观察概化系数和可靠性指数等指标的变化,为改进考试设计和命题提供参考信息。结果表明,忽略语篇的单变量概化设计以及基于题目的 系数会在概化系数上高估0.0404,将语篇作为多变量的交叉设计会在概化系数上高估0.0480,基于语篇的系数与单变量嵌套设计的概化系数一致。另外,增加阅读理解中的语篇量或题目量都可以提高测量的精度,但增加语篇量在提高阅读理解测试的测量精度上更为高效。 相似文献
11.
韦氏儿童智力量表能否测量第3因子--WISC-CR的多元概化理论研究 总被引:6,自引:2,他引:4
本文针对WISC-CR的二因子和三因子模型,以201位6至7岁小学生为对象,运用多元概化理论的方法研究了其总信度和各亚因子的测量信度。研究发现:(1)二因子模型下各亚因子与总测验的测量信度都比较高。但当它被作为测量言语理解、知觉组织和抗干扰三个因子的量表时,第3个因子的信度过低,且不易得到改善。这表明不宜用它来测量抗干扰的能力;(2)该量表不宜作为标准参照性测验来使用,因为其测量信度无法得到保障,此外,文章还展示了评价一个成套测验总信度及其亚能力因子信度的MGT方法,这于心理测量学的发展是有价值的。 相似文献
12.
"青少年学生生活满意度量表"的概化理论研究 总被引:2,自引:0,他引:2
概化理论是用统计调整技术分析测量误差的一种测量理论,它侧重于从宏观方面讨论实测时的测量条件与结论推广应用范围之间的关系来探讨测量的外部效度问题。本文用概化理论对青少年学生生活满意度量表(CASLSS)进行了研究,得到以下研究结果:(1)对于生活满意度的维度数目,就我国青少年学生而言取6到8个维度较为合适,当对CASLSS取2个维度时,CASLSS只适合作常模参照性解释,而不适合作标准参照性解释;(2)CASLSS的各分量表和总量表的信度较高,且它不仅可以作常模参照性解释,还适合作标准参照性解释;(3)CASLSS的环境满意度因子相对其它五个因子而言,量表特性稍差,是今后改进该量表的主要方向。CASLSS无论是各个因子还是总量表均具有非常优良的量表特性,值得在实际的工作和研究中加以推广应用。 相似文献
13.
从多元概化理论看高考综合能力测试的改进 总被引:10,自引:0,他引:10
通过多元概化理论的研究发现,高考综合能力测试(2001,广东)的总体信度达到了可以接受的水平(0.784)。但测验中各部分对总方差的贡献程度与预定的赋分比例有较大差距。其中,地理和政治的贡献度偏低,化学和历史的贡献度偏高。这表明有(历史和化学)偏科特点的考生得到了较高的综合分数。又经决策(D)研究发现,增加地理部分的题量会反常地降低测验的总体信度,这说明有不少高分考生答错或主动放弃了地理科题目。因此,如何有效控制各部分的实际贡献程度、避免负面导向是当前高考综合能力测试亟待解决的问题。 相似文献
14.
三种心理测量理论的信度观 总被引:5,自引:0,他引:5
目前,心理测量领域中主要存在三大理论派别。本文分别对这三种理论即经典测验理论、可概括性理论和项目反应理论作了简要介绍,着重分析这三种理论的信度观。文章讨论了这三种信度观的理论基础和研究方法,比较了它们的异同,指出经典测验理论存在的一些不足及概化理论和项目反应理论所作的改进。概化理论是对经典测验理论的扩展,它用多维的信度指标(概化系数)替代了经典测验理论的信度系数,项目反应理论则从信息量的角度出发,用项目信息函数、测验信息函数等指标更具体深入地反映项目、测验的测量可靠程度。 相似文献
15.
16.
17.
Sandra J. McKenzie Karla R. Klein Leonard H. Epstein James McCurley 《Journal of psychopathology and behavioral assessment》1993,15(2):129-139
The generalizability of behaviors across observational conditions is a critical issue in behavioral assessment. Generalizability theory was used to examine two aspects of audio recorded parent-child interactions recorded over 6 days of home measurement and 1 day of laboratory measurement in a behavioral treatment program for childhood obesity. Families audiotaped parent-child home meetings during which they reviewed self-monitored diet and exercise records that were coded for the following types of interactions: praise statements, negative statements, prompts for new behaviors, and statements promoting problem solving. A similar meeting was audiotaped in our laboratory. The first question explored was the number of measurements needed to generalize to the universe of the six home measures. Results showed an increase in generalizability over measurements for each behavioral category. Using generalizability coefficients of .60 or more, praise, negative comments and prompts, respectively, could be reliably observed based on 1, 4, or 4 days of measurement. Second, the effects of setting (laboratory versus home) were assessed for 1 day of measurement in each environment. Again using generalizability coefficients of .60, generalizability analysis showed that the lab setting could not be generalized to the home setting based on 1 day of measurement, with generalizability coefficients ranging from .27 for negative comments to .57 for praise. Results suggest that 4 days of behavioral assessment in the home can be used to establish generalizable data for all the dependent measures studied. However, generalizability coefficients suggested that 1 day of laboratory measurement was not adequate to generalize to typical home behavior.This research was supported in part by Grant NIH HD 23713 awarded to the third author. 相似文献
18.
概化理论在心理与教育测量领域应用较广。如何使测量程序在预算限制的情况下达到较优的可靠性是研究者需要考虑的重要问题, 这个问题可以转换为最佳样本量估计的问题。提出了一种基于进化算法的估计概化理论下最佳样本量的新方法——约束进化算法, 并采用模拟研究的方法比较了微分优化法、拉格朗日法、柯西不等式法等三种传统方法与约束进化算法的优劣。结果表明:在两侧面交叉设计、两侧面嵌套设计和三侧面交叉设计中都证明了约束进化算法更具优越性, 建议研究者在今后的研究中优先使用。 相似文献
19.
用多元概化理论考察大学生网络成瘾量表在大学生群体中应用的测量学性能。以随机测量模式的概化设计,针对1200名在校大学生进行问卷调查。结果显示双因子结构的相关程度在0.92以上,五因子结构的相关程度均在0.76~0.97间;整体量表的概化系数和可靠性指数均达到了0.94以上,而双因子结构各因子在0.90左右,五因子结构各因子均在0.74~0.85间。所以,整体量表及各因子在大学生群体中应用的信效度较高,可用作常模和标准参照测验;无论双因子还是五因子结构,CIAS-R各因子在分值比和项目数上,设计非常合理和完善。 相似文献
20.
John M. Watkins Howard B. Lee Oded Erlich 《Journal of psychopathology and behavioral assessment》1980,2(1):1-16
Generalizability theory was applied to the Matching Familiar Figures Test (MFF) to analyze the dependability of the MFF as a measure of reflection-impulsivity at four grade levels: second, third, fourth, and fifth. A completely crossed, two-facet random model design was used to provide a multidimensional framework for examining the dependability of the MFF. Components of variance and coefficients of generalizability were derived from this design for the MFF error and latency scores at each grade level. Results showed that the MFF latency score was a more dependable measure than the MFF error score. In addition, the number of testing occasions made a more significant contribution to the generalizability of the MFF than the number of items. Coefficients of generalizability based on extrapolated items and occasions were also computed, providing the basis for improving the dependability of the MFF in future research. Overall, results indicate that the traditional method of allowing multiple trials for each item contributes to the imprecision of the MFF error score. An alternative procedure for administering the MFF is recommended.Portions of this article were presented at the annual convention of the American Educational Research Association, Toronto, Canada, March 1978. At various times during the conduct and completion of the present article, the first author was affiliated with the Los Angeles Unified School District and the University of California, Los Angeles. 相似文献