مقایسه روش های معیارگزینیِ نقطه گذاری معیار و علامت گذاری در دسته بندی سطوح عملکرد مطالعه کلان مقیاسِ سنجش ریاضی (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
هدف: معیارگزینی یکی از فنون سنجش برای طبقه بندی معتبرِ آزمودنی ها است. در این مطالعه، تأثیر استفاده از دو روش معیارگزینیِ نقطه گذاری معیار و علامت گذاری بر نتایج حاصله از مطالعه کلان مقیاسی تحلیل شد که برای سنجش یادگیری ریاضی پایه ششم در بین دانش آموزان شهر تهران اجرا شده بود.روش پژوهش: این روش ها روی داده های سنجش کلان مقیاس استانی که بر 9720 دانش آموز پایه ششم شهر تهران اجرا شده بود، مقایسه شدند. مشارکت کنندگان در این پیمایش در مجموع 264 سؤال ریاضی را پاسخ دادند و پاسخ های آنان با استفاده از روش مقادیر محتمل تحلیل شدند.یافته ها: نتایج نشان دادند که به کارگیری روش نقطه گذاری معیار باعث می شود که به ترتیب 75، 48، 18 و 2 درصد از دانش آموزان حداقل نمرات لازم را در سطوح عملکردی پایین، متوسط، بالا و پیشرفته کسب کنند. هم چنین، با استفاده از این روش 9/23 درصد از سؤالات در همان سطحی قرار گرفتند که توسط کارشناسان موضوعی تعیین شده بودند. در مقابل، مقایسه فاصله میانگین های متوالیِ پارامتر جایگاه با انحراف معیار جایگاه در سطوح عملکردی، کیفیت دسته بندی اولیه کارشناسان برای استفاده در روش علامت گذاری را زیر سؤال برد. علاوه براین، تأثیر استفاده از پنج احتمال پاسخِ 52/0، 57/0، 62/0، 67/0 و 75/0 بر دسته بندی دانش آموزان نشان داد که با وجود تأکید پیشینه پژوهشی بر احتمال پاسخِ 67/0، کم ترین احتمال پاسخ (52/0) نتایج واقعی تری را نسبت به بقیه تولید می کند ولی هم چنان در مقایسه با روش نقطه گذاری معیار معیار سخت گیرانه ای به نظر می رسد.نتیجه گیری: باید به معیارگزینی به عنوان یک مبحث فنی در همه سنجش هایی که درجه بندی یا قبول و ردی یکی از تبعات شرکت در آزمون است، توجه بیشتری شود.A Comparison between Benchmarking and Bookmarking to Classification of Performance Levels in Large-scale Study of Mathematics Assessment
Objective: Standard setting is one of the assessment techniques to create valid classifications of examinees. In present study, the effect of two standard setting methods, benchmark and bookmarking, was examined in results of a large-scale study, which was planned for assessing mathematics learning in sixth grade students of Tehran city.Methods: Two methods were compared using data of a provincial large-scale assessment which carried out on 9720 sixth grade students in Tehran city. They asked 264 mathematics items and their response were analyzed by plausible values. Results: Results of applying benchmark showed that 75, 48, 18, and 2 percent of students attained minimum scores in low, mediate, high, and advanced levels; respectively. In addition, 23.9 percent of items located in the same level that identified by content experts. In contrast, quality of classification by content experts in bookmarking was critiqued due to comparing of successive averages with standard deviations of location parameters. Moreover, effect of using five response probabilities: 0.52, .057, 0.62, 0.67, and 0.75 in classification of students indicated that, in spite of recommendation of response probability 0.67 in literature, the lowest response probability (0.52) produced the most realistic results rather than other response probabilities, however, this is still a strictly standard comparing benchmarking methods.Conclusion: Standard setting should be considered as a technical issue in all assessments that grading or pass/fail is consequent of the test.