Facet Variability in the Light of Rater Training in Measuring Oral Performance: A Multifaceted Rasch Analysis (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
Due to subjectivity in oral assessment, much concentration has been put on obtaining a satisfactory measure of consistency among raters. However, obtaining consistency might not result in valid decisions. One matter that is at the core of both reliability and validity in oral performance is rater training. Recently, Multifaceted Rasch Measurement (MFRM) has been adopted to address the problem of rater bias and inconsistency; however, no research has incorporated the facets of test takers’ ability, raters’ severity, task difficulty, group expertise, scale criterion category, and test version together in a piece of research along with their two-sided impacts. Moreover, little research has investigated how long rater training effects last. Consequently, this study explored the influence of the training program and feedback by having 20 raters score the oral production, as measured by the CEP (Community English Program) test, produced by 300 test takers in three phases, i.e., before, immediately after and long after the training program. The results indicated that training can lead to higher degrees of interrater reliability and diminished measures of severity/leniency, and biasedness. However, it won't lead the raters into total unanimity, except for making them more self-consistent. Although rater training might result in higher internal consistency among raters, it cannot eradicate individual differences. That is, experienced raters, due to their idiosyncratic characteristics, did not benefit as much as inexperienced ones. This study also showed that the outcome of training might not endure in long run after training; thus, it requires ongoing training letting raters regain consistency.تنوع وجهی در پرتو آموزش ارزیاب در اندازه گیری عملکرد دهان: تحلیل راش چندوجهی
بدلیل اعمال سلیقه در ارزیابی مهارت گفتاری، تأکید زیادی بر دستیابی به سطح قابل قبولی از پایایی در میان مصححان شده است. اما دستیابی به پایایی بیشتر لزوما منجر به ارزیابیهای معتبرتر نمیشود. یکی از موضوعاتی که در ارزشیابی مهارت گفتاری میتواند باعث ایجاد هم پایایی و هم اعتبار نماید، آموزش مصححان است. اخیرا، از روش راش چند وجهی (MFRM) برای حل مشکل سوگیری مصحان نمره دهی استفاده شده است. اما هیچ مطالعه ای جنبه های توانایی تست شوندگان، سخت گیری مصححین، دشواری کار، تخصص گروه، نوع مقیاس سنجشی و نسخه آزمونی را در یک مطالعه واحد در بر نداشته است. همچنین، تعداد کمی از مطالعات به بررسی مدت زمان ماندگاری اثرات آموزش مصححان پرداخته اند. بنابراین، این مطالعه تأثیر برنامه آموزشی و بازخورد ارائه شده به تولیدات گفتاری 300 تست شونده توسط 20 مصحح در سه مرحله را بررسی کرد. نتایج نشان داد که آموزش می تواند منجر به سطوح بالاتری از پایایی میان مصححین و کاهش شدت/نرمش، و سوگیری شود. اما نمی تواند مصححان را مشابه یکدیگر نماید. اگرچه آموزش مصححان ممکن است به ایشان کمک کند تا از ثبات بیشتری برخوردار باشند، اما نمی تواند تفاوتهای فردی مصححان در ارتباط با ویژگیهای آنها را از بین ببرد. مصححان باتجربه، بدلیل ویژگیهای خاص خود، به اندازه محصصان بی تجربه از مزایای آموزش بهره نبردند. این مطالعه همچنین نشان داد که نتیجه آموزش ممکن است برای مدت طولانی دوام نیاورد. بنابراین، به آموزش مداوم در طول دوره های متناوب نیاز است تا مصححین پایایی خود را نگه دارند.