首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 195 毫秒
1.
多面Rasch模型在结构化面试中的应用   总被引:1,自引:0,他引:1  
孙晓敏  薛刚 《心理学报》2008,40(9):1030-1040
使用项目反应理论中的多面Rasch模型,对66名考生在结构化面试中的成绩进行分析,剔除了由于评委等具体测量情境因素引入的误差对原始分数的影响,得到考生的能力估计值以及个体水平的评分者一致性信息。对基于考生能力估计值和考生面试分得到的决策结果进行比较,发现测量误差的确对决策造成影响,对个别考生的影响甚至相当巨大。进一步使用Facets偏差分析以及评委宽严程度的Facets分析追踪误差源。结果表明,将来自不同面试组的被试进行面试原始成绩的直接比较,评委的自身一致性和评委彼此之间在宽严程度上的差异均将导致误差。研究表明,采用Facets的考生能力估计值作为决策的依据将提高选拔的有效性。同时,Facets分析得到的考生个体层次的评分者一致性指标,以及评委与考生的偏差分析等研究结果还可以为面试误差来源的定位提供详细的诊断信息  相似文献   

2.
多面Rasch模型理论及其在结构化面试中的应用   总被引:1,自引:0,他引:1  
针对影响面试效度的各种误差来源,该文引入了一种新颖的面试结果处理方法:多面Rasch模型。这一模型在结构化面试中的应用不但有利于有效测量被试的能力水平,而且为识别问题评委、进一步完善评分规则、实现面试等值等问题都提供了全新的解决思路。文章在对结构化面试信、效度研究进展进行综述的基础上,介绍了多面Rasch模型的理论及其在结构化面试中的应用框架。  相似文献   

3.
本文以一个大学社团的团体协作项目活动的参赛大学生为测评对象,运用多面Rasch模型从参赛选手、评分者和测评内容三个侧面考察团队协作能力测评的有效性。结果发现,参赛选手的团队协作能力大都处于中等水平且彼此间相差不大,4位评分者的评分宽严度较低且不一致,评分者在评分过程中产生了偏差。另外,文章还揭示了团队协作能力的结构,为培养大学生团队协作能力提供了参考依据。  相似文献   

4.
结构化面试作为使用最为普遍的人事选拔技术之一受到越来越多研究者的关注.本研究与传统分析方法和内容不同,选用IRT的Rasch模型的拓展--多面Rasch模型,对某次结构化面试中两组12位评委对66名考生的面试数据进行分析,主要对面试中10点量表的使用进行了检测.结果表明在面试的五个维度中,10点量表并未完全使用,低端的3个等级未被使用;总体而言,考生在各维度上得到的评定越高就越有能力,但在综合分析和口头表达两个维度上,出现了等级评定和考生能力倒挂现象;而且,在各个面试维度上均发现了评定等级的非等距性.  相似文献   

5.
HSK主观考试评分的Rasch实验分析   总被引:1,自引:0,他引:1  
主观评分中存在的不一致性导致主观评分的信度降低。多面Rasch模型基于项目反应理论,可以应用于评分员效应的识别和消除,从而提高主观评分的信度。该文介绍多面Rasch模型的理论和应用框架,设计了基于该模型的HSK主观考试评分质量控制应用框架,利用HSK作文评分数据进行了实验验证。  相似文献   

6.
用多元概化理论分析由75名应聘者和7名面试官组成的结构化面试中多种变异来源,结果表明:面试中5个测评因子的概化系数约为0.81~0.88之间,说明该面试7名考官对应聘者评分并不太一致,但勉强可以接受,产生误差的主要来源是应聘者与面试官交互作用影响;继续增加面试官数量可有效提高概化系数,但是并不符合实际,对面试官在评分标准上进行统一培训才是解决问题的最佳方法。概化理论具有经典测量理论不可及的优势,适合广泛应用于结构化面试的数据分析中。  相似文献   

7.
结构化面试是人事选拔中采用的主要评价方法之一。解释结构化面试过程中面试官和应聘者行为反应的理论观点有社会互动理论、拟剧论、行为一致性观点、特质激活理论等。一个完整的结构化面试可以划分为关系建立、题目问答和分数评定三个阶段。在结构化面试中, 面试官的行为从观察、获取、分析、回应应聘者的各种表现信息, 形成初始印象, 到参照面试评分标准评分等, 经历了一系列相互影响的心理过程。影响面试官评分的主要因素包括面试设计因素和考官自身等内部因素, 以及应聘者因素、面试环境因素等外部因素两个方面。结合应聘者反应, 探索面试官评分的心理机制是今后结构化面试研究的突破点。  相似文献   

8.
多维题组效应Rasch模型   总被引:2,自引:0,他引:2  
首先, 本文诠释了“题组”的本质即一个存在共同刺激的项目集合。并基于此, 将题组效应划分为项目内单维题组效应和项目内多维题组效应。其次, 本文基于Rasch模型开发了二级评分和多级评分的多维题组效应Rasch模型, 以期较好地处理项目内多维题组效应。最后, 模拟研究结果显示新模型有效合理, 与Rasch题组模型、分部评分模型对比研究后表明:(1)测验存在项目内多维题组效应时, 仅把明显的捆绑式题组效应进行分离而忽略其他潜在的题组效应, 仍会导致参数的偏差估计甚或高估测验信度; (2)新模型更具普适性, 即便当被试作答数据不存在题组效应或只存在项目内单维题组效应, 采用新模型进行测验分析也能得到较好的参数估计结果。  相似文献   

9.
采用项目反应理论(IRT)的多侧面Rasch模型(MFRM),分析评价中心技术中无领导小组讨论(LGD)的测评结果,探讨被试能力水平、评委评分宽严度、评分内部一致性、维度难度和评定等级等问题,进而讨论各种偏差。通过 MFRM 分析人事测评结果,可深入了解被试能力的真实差异、甑别维度难度、探查测评误差源,从而完善测评试题编制、评估或诊断评委合格性、提高测评维度与测评目的匹配性,为拓展项目反应理论在人事测评中的应用提供独特视角。  相似文献   

10.
概化理论(GT)和项目反应理论(IRT)从两个不同的方向发展了经典测量理论, GT和IRT中的多面Rasch测量模型(MFRM)在主观评分中都可以用来估计评分中各变异来源对变异的贡献, 对测评的信度进行估计, 提出测评改进意见。12名运动员参加了2008北京奥运会男子10米跳台跳水决赛, 比赛共6个回合, 7名裁判独立对他们在各个回合的表现进行打分。GT和MFRM比较一致地认为运动员自身、回合、运动员与回合的交互效应是运动员得分的重要变异来源, 而裁判员对运动员得分差异的贡献不显著。MFRM同时还估计出难度系数是影响男子跳台跳水成绩的重要变异来源, 在评分等级6.5附近存在步校准错乱, 得出的运动员成绩排序与2008奥运实际排序有所不同。在GT中难度系数作为隐藏侧面, 其效应未能分离出来。GT和MFRM从两个不同的方面给测量提供改进意见: GT发现可以通过增加回合数来提高g系数, 而增加裁判数对其影响不大。MFRM给出各侧面的要素(如某裁判、运动员等)的估计值及其标准误, 它给出的诊断性拟合统计也有助于甄别异常得分或评分模式。  相似文献   

11.
关丹丹 《心理学探新》2014,34(5):437-440
为了评价和改进硕士研究生入学考试一般能力测试的写作评分,研究者采用概化理论和多面Rasch分析对113位考生的写作样本的评分误差来源、评分信度等进行了探讨.概化理论研究显示,评分者和题目对评分准确性影响不大,以两道写作题的考试设计而言,评分者为2人即可保证评分信度在0.75以上.多面Rasch分析显示,评分者宽严度的估计值及其误差均在可接受的范围内,评分者之间在宽严度上不存在显著差异,且评分者自身在评分时总体上比较稳定.但个别评分者在特定考生特定题目上表现出特殊偏向.概化理论和多面Rasch分析丰富了写作评分研究的量化指标,证实了硕士研究生入学考试一般能力测试的写作评分具有较高的信度.  相似文献   

12.
国家公务员结构化面试中评委偏差的IRT分析   总被引:7,自引:1,他引:6  
孙晓敏  张厚粲 《心理学报》2006,38(4):614-625
使用项目反应理论(IRT)中的多面Rasch模型,对两组共12名评委在国家公务员结构化面试中的评委偏差进行了分析。提出并验证了两种评委偏差:评委之间在宽严程度上的差异和评委自身的一致性问题。结果发现:不同评委之间在宽严程度上差异显著,且不同评委评定行为的跨考生、跨维度、跨性别、跨时间的自身一致性也存在差异。研究表明,这种进入到评委个体层次的分析突破了经典测量理论(CTT)定位于评委群体进行分析的局限,针对每位评委的偏差行为提供了详细具体的诊断信息,从而为评委的针对性培训和评委库的建立提供了现代测量学的新方法  相似文献   

13.
国内外考试改革和大型测评实践越来越强调主观题的作用,则评分者信度研究又重新成为一个备受关注的议题。研究在Wang和Liu(2007)的广义多水平侧面模型基础上,提出并探讨了等级反应多水平侧面模型。结果表明:在评分者固定效应和随机效应两种实验条件下,各偏差值的均值与标准差均较小,说明模型在当前实验条件下,各参数估计值的返真性和稳健性均较好,可以检测出评分者效应,由此,后续可进一步加入评分者效应的影响因素,使其发展为可同时检测评分者效应及其影响因素的完整模型。  相似文献   

14.
普通话测试的录音评分可行性、信度及经济效率   总被引:9,自引:0,他引:9  
该研究采用心理测量中的概化(generalizability theory)理论,通过两个研究,分析国家语言文字工作委员会的普通话测试中采用录音评分的可行性,并探讨了其信度、经济效率及心理测量等特性。研究共有25名被试及8名评分员。结果表明录音评分和现场评分测试的结果是一致的,最少能区分90%的能力差异。此外,研究亦指出现行测试的评分者人数及题数已经算足够,但仍可依考生能力特性等,作一些调整以提高测试效率。  相似文献   

15.
Multifaceted data are very common in the human sciences. For example, test takers' responses to essay items are marked by raters. If multifaceted data are analyzed with standard facets models, it is assumed there is no interaction between facets. In reality, an interaction between facets can occur, referred to as differential facet functioning. A special case of differential facet functioning is the interaction between ratees and raters, referred to as differential rater functioning (DRF). In existing DRF studies, the group membership of ratees is known, such as gender or ethnicity. However, DRF may occur when the group membership is unknown (latent) and thus has to be estimated from data. To solve this problem, in this study, we developed a new mixture facets model to assess DRF when the group membership is latent and we provided two empirical examples to demonstrate its applications. A series of simulations were also conducted to evaluate the performance of the new model in the DRF assessment in the Bayesian framework. Results supported the use of the mixture facets model because all parameters were recovered fairly well, and the more data there were, the better the parameter recovery.  相似文献   

16.
17.
黎光明  蒋欢 《心理科学》2019,(3):731-738
包含评分者侧面的测验通常不符合任意一种概化理论设计,因此从概化理论的角度来看这类测验下的数据应属于缺失数据,而决定缺失结构的就是测验的评分方案。用R软件模拟出三种评分方案下的数据,并比较传统法、评价法和拆分法在各评分方案下的估计效果,结果表明:(1)传统法估计准确性较差;(2)评分者一致性较高时,适宜用评价法进行估计;(3)拆分法的估计结果最准确,仅在固定评分者评分方案下需注意评分者与考生数量之比,该比值小于等于0.0047 时估计结果较为准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号