共查询到19条相似文献,搜索用时 187 毫秒
1.
考察了锚测验难度水平对其来源测验水平的代表性对垂直量尺化的影响。采用模拟研究的方法,比较了锚测验难度等于来源测验、位于高低年级测验水平难度区间的第25百分位处及区间第50百分位处时,年级能力分布和垂直量尺特性上的参数返真结果,发现锚题难度水平高于其来源测验非但不会导致垂直量尺化结果变差,在有的情境下反而可能会提高其准确性。研究揭示人们构建垂直量尺时,可以根据内容和其他统计特征的需要对锚测验的难度水平做出适当调整 相似文献
2.
使用3PLM和蒙特卡洛法生成数据,基于非等组锚题设计,考察不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响。结果发现:(1)基准年级的选择会影响垂直量尺化的精度。(2)锚题设计下垂直量尺化的转换不宜超过两个年级。(3)不同基准年级下,年级离散程度越小,估计精度越好。(4)不同基准年级下,对锚题难度范围的选择应有所不同。(5)年级离散程度与锚题难度范围之间存在交互效应。 相似文献
3.
锚测验———非等组设计是一种非常重要的等值设计方法。研究证明 :在此设计之下作为等值媒体的锚测验采用的题型不同对等值结果会有不同影响 ;采用的等值关系估计方法不同对等值结果也有不同影响 ;题型与估计方法之间还有明显的交互作用。研究认为 ,在当前的命题与评分技术水平条件下 ,锚测验以纯客观题组成为最佳 ;在锚测验题量固定的条件下 ,等值关系估计以选用频数估计法为最佳。 相似文献
4.
用多元概化理论对普通话的测试 总被引:5,自引:0,他引:5
用多元概化理论 (MGT)研究了国家语委编制的普通话测验。在G研究中 ,利用香港人普通话测试的数据 ,估计了引起分数变异的各种来源的方差与协方差分量。在D研究中 ,首先估计了该测验 3个部分的全域分数和各自的概化系数等技术指标 ,然后估计了全域合成分数及其概化系数、信噪比等指标。结果表明 ,该测验的信度从总体上讲是较高的 ,把三个部分的全域分数进行合成也是合理的 ,但从细节上看其第 3部分的信度较低。另外 ,当评分者个数为 3、试题数量为 2 8时 ,测验的第 1、2部分的信度已经较高 ,因此 ,在实测时减少这两部分的题量并不会有太大问题 相似文献
5.
6.
7.
8.
9.
语音超文本系统中锚点标记方式的比较研究 总被引:1,自引:1,他引:0
近年来。语音超文本系统中超链接锚点的标记方式成为该研究领域的一个热点问题。笔者在设计参数优化基础上对语音超文本系统中常见的两种超链接锚点标记方式——言语相关标记与非言语相关标记进行比较研究,旨在为语音超文本界面中超链接锚点标记的设计提供适宜的参数。实验在模拟的语音超文本系统中进行,以链接词检测率、句子理解正确率和主观评价作为评价绩效的指标,结果发现,(1)男女声变调的言语相关标记方式下对链接词的检测率和主观评价均优于全词标记和尾字标记两种非言语相关标记方式,但上述三种标记方式对句子理解均无显著影响;(2)采用非言语相关标记时,链接词在句中的位置显著影响其检测率。根据上述结果,笔者推荐男女声变调标记可作为语音超文本链接词标记的首选方式。 相似文献
10.
尽管多阶段测验(MST)在保持自适应测验优点的同时允许测验编制者按照一定的约束条件去建构每一个模块和题板,但建构测验时若因忽视某些潜在的因素而导致题目之间出现局部题目依赖性(LID)时,也会对MST测验结果带来一定的危害。为探究"LID对MST的危害"这一问题,本研究首先介绍了MST和LID等相关概念;然后通过模拟研究比较探讨该问题,结果表明LID的存在会影响被试能力估计的精度但仍为估计偏差较小,且该危害不限于某一特定的路由规则;之后为消除该危害,使用了题组反应模型作为MST施测过程中的分析模型,结果表明尽管该方法能够消除部分危害但效果有限。这一方面表明LID对MST中被试能力估计精度所带来的危害确实值得关注,另一方面也表明在今后关于如何消除MST中由LID造成危害的方法仍值得进一步探究的。 相似文献
11.
研究旨在探索无铆题情况下,使用构造铆测验法,实现测验分数等值。研究一和研究二分别探索题目难度排序错误、铆题难度差异对构造铆测验法的影响。结果表明:(1)等组条件下,随着错误铆题比例,难度排序错误程度,铆题难度差异增大,构造铆测验法的等值误差逐渐增大,随机等组法的等值误差较为稳定;不等组条件下,构造铆测验法的等值误差均小于随机等组法;(2)对于构造铆测验法,在不等组条件下,铆测验长度越短,等值误差越大。 相似文献
12.
The Non-Equivalent groups with Anchor Test (NEAT) design involves missing
data that are missing by design. Three nonlinear observed score equating methods used with a NEAT design are the frequency estimation equipercentile equating (FEEE), the chain equipercentile equating (CEE), and the item-response-theory observed-score-equating (IRT OSE). These three methods each make different assumptions about the missing data in the NEAT design. The FEEE method
assumes that the conditional distribution of the test score given the anchor test score is the same in the two examinee groups.
The CEE method assumes that the equipercentile functions equating the test score to the anchor test score are the same in
the two examinee groups. The IRT OSE method assumes that the IRT model employed fits the data adequately, and the items in
the tests and the anchor test do not exhibit differential item functioning across the two examinee groups. This paper first
describes the missing data assumptions of the three equating methods. Then it describes how the missing data in the NEAT design
can be filled in a manner that is coherent with the assumptions made by each of these equating methods. Implications on equating
are also discussed. 相似文献
13.
基于经典测验理论(CTT)的等值方法主要有线性等值和等百分位等值两种。在不同情境下,不同的等值方法会产生不同的等值结果。本研究以真分数等值为依据,用蒙特卡洛模拟研究方法,综合比较了各种题目难度分布条件下和各种样本容量条件下两种CTT等值方法的等值结果。研究结果表明:(1)线性等值的误差受题目难度分布影响较大,等百分位等值的误差几乎不受题目难度分布影响。(2)线性等值的误差几乎不受样本容量的影响,等百分位等值的误差受样本容量影响较大。(3)不论题目难度分布如何,只要样本容量足够大,等百分位等值的效果都比线性等值更好。 相似文献
14.
15.
传统锚题-非等组设计下的测验等值,等值要求的满足具有主观性,并且由于锚题失效或难以获得等因素的影响,则该方法的使用受到了限制。因此,本研究基于规则空间模型的Q矩阵理论,生成两个Q矩阵相同但无锚题的测验的共同受测者,使用共同组设计,利用同时性估计的方法对测验进行等值,并考虑了作答失误率和测验结构对等值稳定性的影响。结果表明:共同组设计同时估计方法的等值稳定性取得了优于或等于锚题-非等组同时估计方法;失误率的增大也会导致等值稳定性的下降;并且不同的测验结构也对等值稳定性产生了影响,其中直线型和收敛型结构稳定性较好,发散型和无结构型较差。 相似文献
16.
In this paper, we develop a new curvilinear equating for the nonequivalent groups with anchor test (NEAT) design under the
assumption of the classical test theory model, that we name curvilinear Levine observed score equating. In fact, by applying
both the kernel equating framework and the mean preserving linear transformation of post-stratification equating, we obtain
a family of observed score equipercentile equating functions, which also includes the classical Levine observed score linear equating and the Tucker linear equating
as special cases. 相似文献
17.
18.
Alina A. von Davier 《Psychometrika》2013,78(4):605-623
In this paper, an overview of the observed-score equating (OSE) process is provided from the perspective of a unifying equating framework (von Davier in von Davier (Ed.), Statistical models for test equating, scaling, and linking, Springer, New York, pp. 1–17, 2011b). The framework includes all OSE approaches. Issues related to the test, common items, and sampling designs and their relationship to measurement and equating are discussed. Challenges to the equating process, model assumptions, and approaches to equating evaluation are also presented. The equating process is illustrated step-by-step with a real data example from a licensure test. 相似文献
19.
实际应用中测验往往具有多维结构, 如果仍采用单维IRT方法进行等值, 会得到不准确的结果。因此对于多维结构的测验, 需要使用多维IRT等值方法来实现参数的转换。基于共同题设计, 文章通过模拟研究的方法, 考察了不同铆测验设计下几种多维IRT等值方法的表现, 同时考虑了测验长度、两个维度题目数量的比例、铆测验长度、铆测验的选择策略、两个维度之间的相关和等值群体的能力水平差异六个因素的影响。所比较的多维IRT等值方法有:均值/均值(MM)方法, 均值/标准差(MS)方法, Stoking-Lord (SL)方法, Haebara (HB)方法, 最小平方(LS)方法。结果显示:(1) SL, HB和LS方法得到的等值误差均方根最小, 且在各条件下表现较为稳定。(2) MM和MS方法在非等组条件下呈现出很大的误差均方根。(3)铆测验设计对SL, HB和LS方法的等值结果没有显著影响。(4)在两个维度之间的相关较高, 测验长度和铆测验长度较长, 等值群体的能力水平没有差异的条件下, SL, HB和LS方法得到的等值误差均方根最小。 相似文献