آرشیو

آرشیو شماره ها:
۴۵

چکیده

هدف:  پژوهش حاضر به منظور بررسی میزان جدیت/تساهل و گرایش به مرکز ارزیابان در نمره گذاری آزمون های عملکردی سراسری سازمان سنجش انجام شد.روش پژوهش: برای این منظور از داده های ثانویه آزمون های طراحی معماری سال های 1396 (5437 نفر)، اسکیس معماری 1397 (7459 نفر)، طراحی صنعتی سراسری سال 1396 (1365نفر)، موسیقی سال 1397 (569 نفر) و نمایش عروسکی سال 1397 (97 نفر) استفاده شد. داده ها با استفاده از روش های کلاسیک و مدل های چند وجهی راش تحلیل و نتایج استخراج شد.یافته ها: در هر دو آزمون طراحی معماری، در کل میزان همسانی (مطابقت نسبی بین درجه بندی ارزیابان) قابل قبول، ولی در آزمون های طراحی صنعتی، شناخت موسیقی و نمایشنامه نویسی میزان همسانی پایین است. میزان اجماع (توافق) در هر پنج آزمون مورد بررسی نیز پایین است.نتیجه گیری: نتایج حاصل از مدل های چندوجهی نشان داد اثر سخت گیری ارزیاب و استفاده از نمره های کرانه ای پایین در نمره گذاری، در هر دو آزمون طراحی معماری وجود داشت، ولی مطابق انتظار اثر گرایش به مرکز وجود نداشت. به دلیل استفاده از طرح های جمع آوری داده های نامناسب (مثلا در همه پاسخ ها یا تکالیف یک آزمون، هر داور فقط 2 مورد مجزا از هم را ارزیابی می کند و هیچ همپوشی بین موارد ارزیابی شده توسط ارزیابان وجود ندارد تا با هم به صورت درست مقایسه شوند یا این که در یک آزمون هر تکلیف یا سوال توسط داوران متفاوت ارزیابی می شود) در آزمون های طراحی صنعتی، شناخت موسیقی و نمایشنامه نویسی امکان تحلیل با مدل های چندوجهی وجود نداشت. با توجه به یافته ها توصیه می شود به هنگام ارزیابی آزمون های عملکردی سراسری، اولا از طرح مناسب برای ارزیابی استفاده شود و دوما با آموزش ارزیابان در زمینه نمره گذاری آزمون های عملکردی از تاثیر عواملی مثل جدیت یا تساهل و کاهش توافق جلوگیری به عمل آید.

An Investigation of the Evaluators' Ratings of the Performance Exams in the Field of Arts Using Multi-Faceted Rasch Model

Objective: The present study was done in order to examine the severity/leniency and the central tendency level of raters in scoring of performance tests performed by National Organization for Educational Testing (NOET).Methods: For this purpose, the secondary data in Sketch Architecture Test (1396 and 1397 solar, respectively with 5437 and 7459 people), Industrial design test (1396 solar, 1365 people), Music recognition test (1397 solar, 569 people), playwriting test (1396 solar, 97 people). The data were analyzed by classical methods and many-faceted Rasch models and the results extracted.Results: The results from classical methods show that in both Sketch Architecture Tests, raters’ consistency is generally acceptable, but in other tests (Industrial design, music cognition and playwriting) homogeneity is low. Raters’ consensus is low in all five examined tests. Results from many-facet Rasch models show that in both Sketch Architecture Tests rater's severity and use of lower scores of rating scale effects are present, but as expected, there was not any effect for central tendency. Unfortunately, due to the nature of incorrect data collection designs in Industrial design, music cognition and playwriting tests analysis with many-facet Rasch models was not possible.Conclusion: Based on findings it is recommended that when global performance tests are evaluated by the NOET organization raters, firstly; the proper design for evaluating have been selected and used, and secondly; to prevent the effect of severity or leniency and agreement (consensus) reduction between raters, the training of them for scoring performance tests to be considered

تبلیغات