首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
诸多研究显示用合成信度可以较好地估计测验信度。文献上对合成信度置信区间估计的研究都假设题目测量误差不相关,而在实证研究中,也会遇到误差相关的情况,此时α系数往往高估测验信度,使用合成信度估计测验信度比较准确。本文给出用Delta法计算一般的单维测验合成信度的标准误公式,此公式无论测验误差是否相关都适用,据此可以计算合成信度的置信区间。通过对600名青少年调查发现,中文版FAD分测验"总的功能"的反向题测验误差存在相关,演示了如何估计此分测验的合成信度及其置信区间。  相似文献   

2.
EPQ信度概化的跨文化比较及其启示   总被引:1,自引:0,他引:1       下载免费PDF全文
焦璨  张敏强  张洁婷  吴利  张文怡 《心理科学》2011,34(6):1488-1495
对中国7种主要的心理学杂志,于1998-2008年间发表的与EPQ有关的研究报告或论文做信度概化分析,并与Caruso等人对其他国家的EPQ信度概化分析结果作比较。分析结果表明:中外心理量表使用者都存在严重的“信度引入”的状况;分量表的分数的标准差是信度系数最重要的预测变量;但其他预测变量有所不同。提供的启示是:使用心理量表时一定要报告当前样本的信度系数;不符合心理量表特性要求而增加项目,不一定能提高测验结果的信度。  相似文献   

3.
领导干部结构化面试信度的多元概括化理论分析   总被引:1,自引:0,他引:1  
洪自强  涂冬波 《心理学探新》2006,26(1):85-90,95
本研究尝试运用多元概括化理论对北京市某区副处级干部准入资格结构化面试测评数据进行测量信度分析,为提高领导干部考试与测评工作科学化水平提供了有益的实证依据。主要结论有:(1)本次结构化面试难度适中,区分度较高;(2)各测评要素及合成分数的类信度系数均较高,合成分数的测量信度高于单个测评要素的测量信度;(3)各测评要素及合成分数的类信度系数随着考官数量的增加而增加,且从确保信度和降低成本考虑,考官数量以5-9位为宜;(4)在这次面试测评中,各项测评要素间的相关系数较高,这为目前在选拔面试中将各项测评要素得分进行合成提供了依据,说明用合成分数计算总分具有一定的合理性。  相似文献   

4.
元分析是根据现有研究对感兴趣的主题得出比较准确和有代表性结论的一种重要方法,在心理、教育、管理、医学等社会科学研究中得到广泛应用。信度是衡量测验质量的重要指标,用合成信度能比较准确的估计测验信度。未见有文献提供合成信度元分析方法。本研究在比较对参数进行元分析的三种模型优劣的基础上,在变化系数模型下推出合成信度元分析点估计及区间估计的方法;以区间覆盖率为衡量指标,模拟研究表明本研究提出的合成信度元分析区间估计的方法得当;举例说明如何对单维测验的合成信度进行元分析。  相似文献   

5.
叶宝娟  温忠粦 《心理科学》2012,35(5):1213-1217
大量研究表明,一般情况下用合成信度可以较好地估计测验信度。对于合成信度及其置信区间的估计方法,在单维测验的情形已有不少研究。但罕有研究讨论多维测验合成信度的区间估计方法。本文用Delta法推导出计算多维测验合成信度的标准误公式,进而计算置信区间,并用一个例子说明如何编程估计多维测验合成信度及其置信区间。  相似文献   

6.
α系数与测验的同质性   总被引:1,自引:0,他引:1  
刘红云 《心理科学》2008,31(1):185-188,176
本文从α系数与同质性测验、平行测验和基本τ-等价测验间的关系及三种测验间的关系入手,分析了α系数作为测验同质性信度估计的局限性;根据Jreskog给出的信度定义(α系数),讨论了λ系数与α一致性信度、Guttman 下限之间的关系,说明了在测验同质的前提下,λ系数在估计测验内部一致性时与α系数相比的优点.同时用模拟数据的方法就不同情景下测验的结构维度与α系数、Guttman λ2下限和λ系数之间的关系进行了探讨.  相似文献   

7.
追踪研究中测验工具的信度是衡量追踪研究质量的重要指标。传统的信度估计方法不适用于估计追踪研究的测验信度。近年来, 研究者提出了四种估计追踪研究的测验信度, 包括估计单个时间点的测验信度系数rw和r(Sw), 以及估计整个追踪研究的测验信度系数RT和RL。本文评述了这四种信度估计方法的数学模型、前提假设及其优缺点。RT和RL既可估计追踪研究中单个时间点的测验信度, 也可估计追踪研究中整个追踪研究的测验信度, 所需要的前提假设较少, 推荐同时使用RT和RL来估计追踪研究的测验信度。  相似文献   

8.
对过去20年(1994~2013年)间国内有关大五人格测验的研究文献进行信度概化分析。结果表明:(1)检索到的文献中约68.15%存在"信度引入"现象;(2)未加权估计中,A和O的均值最低,N和C的均值最高,国内所得结果均略低于国外(O除外),而后者的变异性略大(E除外);采用α系数效果量方法,在随机效应模型中,N的估计值最高,O和A的估计值最低;(3)回归分析显示,分数均值、量表来源和南北地域差异是N维度信度的预测变量;量表来源、文章专业类型、测验版本和测验记分对E维度信度具有预测作用;样本量、文章专业类型和量表来源是O维度信度的预测变量;量表来源、文章专业类型、项目数和样本类型对A维度信度具有预测作用;量表来源、项目数、文章专业类型和测验记分是C维度信度的预测变量。  相似文献   

9.
如何正确使用信度估计公式   总被引:11,自引:1,他引:10  
陈希镇 《心理学报》1991,24(1):41-49
本文对教育和心理测验中的多种信度估计方法展开讨论,得到以下几个结论: 1.在估计测验的同质性信度方面,α系数较优,先前几种估计公式或者是其等价形式,或者是其在某种情况下的一个特例;2.在估计测验的信度系数D(T)/D(X)方面,β公式比α系数更优;最后提出估计信度系数的另一个新公式β_1并讨论它和β公式的关系。  相似文献   

10.
阅读理解测试通常为多个题目共用一个语篇材料,属于典型的题组题型,传统的基于单题的信度估计方法将会高估测试的信度。研究采用概化理论模型,通过比较传统信度系数以及不同的概化理论测量设计模型,探讨不同方法对阅读理解测量精度估计的差别;同时,通过改变语篇和题目的数量来观察概化系数和可靠性指数等指标的变化,为改进考试设计和命题提供参考信息。结果表明,忽略语篇的单变量概化设计以及基于题目的 系数会在概化系数上高估0.0404,将语篇作为多变量的交叉设计会在概化系数上高估0.0480,基于语篇的系数与单变量嵌套设计的概化系数一致。另外,增加阅读理解中的语篇量或题目量都可以提高测量的精度,但增加语篇量在提高阅读理解测试的测量精度上更为高效。  相似文献   

11.
杨志明  张雷 《心理科学》2003,26(2):305-307
本文针对WISC-CR的二因子和三因子模型,以201位6至7岁小学生为对象,运用多元概化理论的方法研究了其总信度和各亚因子的测量信度。研究发现:(1)二因子模型下各亚因子与总测验的测量信度都比较高。但当它被作为测量言语理解、知觉组织和抗干扰三个因子的量表时,第3个因子的信度过低,且不易得到改善。这表明不宜用它来测量抗干扰的能力;(2)该量表不宜作为标准参照性测验来使用,因为其测量信度无法得到保障,此外,文章还展示了评价一个成套测验总信度及其亚能力因子信度的MGT方法,这于心理测量学的发展是有价值的。  相似文献   

12.
"青少年学生生活满意度量表"的概化理论研究   总被引:2,自引:0,他引:2  
何立国  周爱保 《心理科学》2006,29(5):1199-1202,1218
概化理论是用统计调整技术分析测量误差的一种测量理论,它侧重于从宏观方面讨论实测时的测量条件与结论推广应用范围之间的关系来探讨测量的外部效度问题。本文用概化理论对青少年学生生活满意度量表(CASLSS)进行了研究,得到以下研究结果:(1)对于生活满意度的维度数目,就我国青少年学生而言取6到8个维度较为合适,当对CASLSS取2个维度时,CASLSS只适合作常模参照性解释,而不适合作标准参照性解释;(2)CASLSS的各分量表和总量表的信度较高,且它不仅可以作常模参照性解释,还适合作标准参照性解释;(3)CASLSS的环境满意度因子相对其它五个因子而言,量表特性稍差,是今后改进该量表的主要方向。CASLSS无论是各个因子还是总量表均具有非常优良的量表特性,值得在实际的工作和研究中加以推广应用。  相似文献   

13.
从多元概化理论看高考综合能力测试的改进   总被引:10,自引:0,他引:10  
杨志明  张雷  马世晔 《心理学报》2004,36(2):195-200
通过多元概化理论的研究发现,高考综合能力测试(2001,广东)的总体信度达到了可以接受的水平(0.784)。但测验中各部分对总方差的贡献程度与预定的赋分比例有较大差距。其中,地理和政治的贡献度偏低,化学和历史的贡献度偏高。这表明有(历史和化学)偏科特点的考生得到了较高的综合分数。又经决策(D)研究发现,增加地理部分的题量会反常地降低测验的总体信度,这说明有不少高分考生答错或主动放弃了地理科题目。因此,如何有效控制各部分的实际贡献程度、避免负面导向是当前高考综合能力测试亟待解决的问题。  相似文献   

14.
三种心理测量理论的信度观   总被引:5,自引:0,他引:5  
目前,心理测量领域中主要存在三大理论派别。本文分别对这三种理论即经典测验理论、可概括性理论和项目反应理论作了简要介绍,着重分析这三种理论的信度观。文章讨论了这三种信度观的理论基础和研究方法,比较了它们的异同,指出经典测验理论存在的一些不足及概化理论和项目反应理论所作的改进。概化理论是对经典测验理论的扩展,它用多维的信度指标(概化系数)替代了经典测验理论的信度系数,项目反应理论则从信息量的角度出发,用项目信息函数、测验信息函数等指标更具体深入地反映项目、测验的测量可靠程度。  相似文献   

15.
运用多元概化理论考察青少年学习倦怠量表(ASBI)的测量学属性。结果发现,ASBI各因子以及全量表的概化系数和可靠性指数均达到较好水平,既可用于常模参照测验,也可用于标准参照测验;各因子的分量比例还不尽完善,低成就感对全域总分的贡献略低于在全量表中的分值比重,对相对误差方差贡献最大的是低成就感,学业疏离对绝对误差方差的贡献最大;今后ASBI的修订工作,可考虑对学业疏离和低成就感因子条目质量的改进,同时适当增加身心耗竭因子的条目数以提高其测量信度。  相似文献   

16.
朱宇  冯瑞龙  辛涛 《心理科学》2013,36(2):479-483
本研究以概化理论为视角,搜集了新HSK五级模拟书写题的作答和评分数据,估算了题型、题量、评卷员人数、评阅速度等潜在影响效应的方差分量,考察了新HSK书写成绩的可靠性,并探索了改善该分数可靠性的途径。基于概化理论和规划求解的数据分析发现了题量的调整方案以及题型、题量、评卷员人数的最优组合方案。本研究对评阅速度进行的分析属于前沿性的理论探索,而其他数据分析结果,则可能有益于旨在改进该测试质量的决策实践。  相似文献   

17.
The generalizability of behaviors across observational conditions is a critical issue in behavioral assessment. Generalizability theory was used to examine two aspects of audio recorded parent-child interactions recorded over 6 days of home measurement and 1 day of laboratory measurement in a behavioral treatment program for childhood obesity. Families audiotaped parent-child home meetings during which they reviewed self-monitored diet and exercise records that were coded for the following types of interactions: praise statements, negative statements, prompts for new behaviors, and statements promoting problem solving. A similar meeting was audiotaped in our laboratory. The first question explored was the number of measurements needed to generalize to the universe of the six home measures. Results showed an increase in generalizability over measurements for each behavioral category. Using generalizability coefficients of .60 or more, praise, negative comments and prompts, respectively, could be reliably observed based on 1, 4, or 4 days of measurement. Second, the effects of setting (laboratory versus home) were assessed for 1 day of measurement in each environment. Again using generalizability coefficients of .60, generalizability analysis showed that the lab setting could not be generalized to the home setting based on 1 day of measurement, with generalizability coefficients ranging from .27 for negative comments to .57 for praise. Results suggest that 4 days of behavioral assessment in the home can be used to establish generalizable data for all the dependent measures studied. However, generalizability coefficients suggested that 1 day of laboratory measurement was not adequate to generalize to typical home behavior.This research was supported in part by Grant NIH HD 23713 awarded to the third author.  相似文献   

18.
黎光明  秦越 《心理学报》2022,54(10):1262-1276
概化理论在心理与教育测量领域应用较广。如何使测量程序在预算限制的情况下达到较优的可靠性是研究者需要考虑的重要问题, 这个问题可以转换为最佳样本量估计的问题。提出了一种基于进化算法的估计概化理论下最佳样本量的新方法——约束进化算法, 并采用模拟研究的方法比较了微分优化法、拉格朗日法、柯西不等式法等三种传统方法与约束进化算法的优劣。结果表明:在两侧面交叉设计、两侧面嵌套设计和三侧面交叉设计中都证明了约束进化算法更具优越性, 建议研究者在今后的研究中优先使用。  相似文献   

19.
用多元概化理论考察大学生网络成瘾量表在大学生群体中应用的测量学性能。以随机测量模式的概化设计,针对1200名在校大学生进行问卷调查。结果显示双因子结构的相关程度在0.92以上,五因子结构的相关程度均在0.76~0.97间;整体量表的概化系数和可靠性指数均达到了0.94以上,而双因子结构各因子在0.90左右,五因子结构各因子均在0.74~0.85间。所以,整体量表及各因子在大学生群体中应用的信效度较高,可用作常模和标准参照测验;无论双因子还是五因子结构,CIAS-R各因子在分值比和项目数上,设计非常合理和完善。  相似文献   

20.
Generalizability theory was applied to the Matching Familiar Figures Test (MFF) to analyze the dependability of the MFF as a measure of reflection-impulsivity at four grade levels: second, third, fourth, and fifth. A completely crossed, two-facet random model design was used to provide a multidimensional framework for examining the dependability of the MFF. Components of variance and coefficients of generalizability were derived from this design for the MFF error and latency scores at each grade level. Results showed that the MFF latency score was a more dependable measure than the MFF error score. In addition, the number of testing occasions made a more significant contribution to the generalizability of the MFF than the number of items. Coefficients of generalizability based on extrapolated items and occasions were also computed, providing the basis for improving the dependability of the MFF in future research. Overall, results indicate that the traditional method of allowing multiple trials for each item contributes to the imprecision of the MFF error score. An alternative procedure for administering the MFF is recommended.Portions of this article were presented at the annual convention of the American Educational Research Association, Toronto, Canada, March 1978. At various times during the conduct and completion of the present article, the first author was affiliated with the Los Angeles Unified School District and the University of California, Los Angeles.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号