آرشیو

آرشیو شماره ها:
۴۵

چکیده

این تحقیق به منظور وزن دهی بهینه به خرده آزمون ها و سؤال های آزمون سراسری برای ساخت نمره کل ترکیبی انجام شده است. هدف نهایی این تحقیق پایین آوردن خطای اندازه گیری نمره کل ترکیبی بر اساس نظریه کلاسیک آزمون سازی بود. وزن دهی در سه سطح صورت گرفته است نخست آزمون سی سؤالی چهارگزینه ای حساب دیفرانسیل که نمونه آن 3409 نفر بود بر اساس وزن دهی در سطح گزینه های سؤال (درصد محبوبیت گزینه ها، نمره فرمولی) و در سطح سؤال (سرجمع ساده بدون وزن یا وزن مؤثر سؤال، وزن عاملی سؤال و وزن دشواری سؤال) وزن دهی شده اند. همچنین در سطح خرده آزمون یک مجموعه آزمون سراسری دستیاری پزشکی با پنج خرده آزمون با طول برابر شش سؤال که نمونه آن 3572 نفر بود نیز به روش های مختلف (متوسط ضریب همبستگی پیرسون، وزن عاملی و ضرایب رگرسیون) وزن دهی شده اند. به علاوه یک مجموعه آزمون دستیاری پزشکی دیگر با طول خرده آزمون های نابرابر به ترتیب 45، 26، 24، 6 و 6 سؤال که در بین گروه 3638 نفری اجرا شده بر اساس وزن مؤثر خود خرده آزمون ها (بدون وزن) مورد بررسی قرار گرفته است. این تحقیق نشان داد که روش نمره فرمولی بیشترین واریانس خطا را نسبت به دیگر روش ها تولید می کند. تنها وزن دهی بر اساس دشواری سؤال می تواند رتبه بندی افراد را به نفع افراد شایسته تر تغییر دهد و دیگر روش های وزن دهی برای افزایش پایایی رضایت بخش نیستند و ضریب پایایی آزمون در همان ابتدا تحت تأثیر سؤال های خوب و خرده آزمون های خوش ساخت با طول بهینه است. 

Optimum Weighting to Entrance Subtests and Their Items to Make Composite Score

This research has been accomplished to weight national subtests and their items to make composite score. The aim of the project was to reduce measurement error associated with composite score in classical test theory framework. weighting procedure has been done in three levels; first, 30 multiple-choice-item test in differential calculus course with 3409 sample size was weighted at item choice level (choices popularity percent and formula score), and item level (simple total without weight or item effect weight, item factor weight and item difficulty weight). At subtest level, also, a test battery of medical assistance national test with 5 equally sized subtests, 6 items, which administered on 3572 candidates, has been weighted in different ways (average Pearson product-moment correlation coefficients weights, factor weights and regression coefficients). Another test battery of medical assistance national test with 5 unequal subtest length, 45, 26, 24,6, and 6 items which administered on 3638 candidates were studied without weighting just on their effective weights. This research revealed that formula score method produces more error than other procedures. Only weighting by item difficulty could rearrange examinees ranking in favor of qualified examinees. Other weighting methods are not satisfactory to enhance reliability coefficients and reliability coefficients, ab initio, are affected by appropriate items and well-made subtests with optimum length. 

تبلیغات