تأثیر حجم نمونه و طول آزمون بر نمرات همتراز شده و خطای همترازسازی: مورد مطالعه آزمون های ملی ایران (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
هدف از انجام پژوهش حاضر ارزیابی تأثیر حجم نمونه و طول آزمون بر نمره های همتراز شده و خطای همترازسازی روش کرنل (KE) (با شیوه های مختلف هموارسازی رشته ای و PSE[2]) و همچنین مزایا و معایب این روش در مقایسه با تکنیک های همترازسازی کلاسیک بوده است. جامعه آماری و گروه نمونه پژوهش حاضر، داده های آزمون های ملی ایران (آزمون تولیمو و آزمون های جامع کنکورهای آزمایشی شرکت تعاونی سازمان سنجش آموزش کشور در سال 92-91) بوده است. آزمون تولیمو دارای 17 سؤال لنگر در هر فرم و 123 سؤال بود. در آزمون های جامع کنکورهای آزمایشی شرکت تعاونی سازمان سنجش آموزش کشور صرفاً از سؤال های مشترک درس های عمومی رشته های ریاضی- فیزیک، علوم تجربی و علوم انسانی استفاده شد. به منظور بررسی تأثیر حجم نمونه بر دقت نتایج همترازسازی، از مجموعه داده های مورد نظر به طور کاملاً تصادفی سه نمونه 200، 500 و 1000 نفری انتخاب و تحلیل شدند. برای بررسی تأثیر طول آزمون بر دقت نتایج همترازسازی از درس های عمومی آزمون های جامع کنکورهای آزمایشی سنجش نمونه ای 40 تایی از سؤال ها (از هر درس 10 سؤال) به طور کاملاً تصادفی انتخاب شد. بدین ترتیب در آزمون های جامع دو آزمون 100 و 40 سؤالی در حجم های نمونه مختلف مورد تحلیل قرار گرفته است. طرح همترازسازی مناسب در آزمون تولیمو طرح گروه های غیر همتا با آزمون لنگر (EAT[3]) و در آزمون های جامع طرح گروه های همسان بوده است. روش همترازسازی در آزمون های مورد نظر، روش میانگین، روش خطی، روش همصدک، روش قوس دایره ای (Circle arc) و روش کرنل (KE) بوده است. به طور کلی هرچه حجم نمونه آزمون شوندگانی که نمراتشان در تحلیل همترازسازی وارد می شود بیشتر باشد، خطای استاندارد همترازسازی کوچک تر خواهد بود. نتایج تحلیل ها به طور کلی نشان داد که همچنان که حجم نمونه افزایش یافته، برازش مربوط به هموارسازی کرنل نیز بهبود یافته است و بهبود هموارسازی کرنل با افزایش طول آزمون همراه بوده است. به طور کلی زمانی که حجم نمونه کوچک باشد، روش کرنل بزرگ ترین مزیت ها را بر سایر روش های همترازسازی کلاسیک دارد.The Effect of Sample Size and Test Length on Equated Scores and Error of Equating: The Case of Iranian National Tests
The purpose of this research was to assess the effect of sample size and test length on the equated scores and equating error of Kernel method (using different methods of chain and poststratification smoothing) as well as the merits and demerits of this method compared to classical equating techniques. Therefore, the population and sample participants were those who took part in Iranian National Tests (TOLIMO, Comprehensive Tests of Iran Educational Testing Service) administered in 2012-2013. TOLIMO had a number of 123 items including 17 anchor tests in each form. To analyze data collected from Comprehensive Tests of Iran Educational Testing Service, only those items related to common general-domain subjects of mathematics and physics, science and humanities were utilized. To investigate the effect of sample size on the accuracy of equating the above mentioned tests, three samples of 200, 500, and 1000 people were randomly selected from among data collected from all participants and analyzed. A 40-item sample (10 items from each subject) was randomly chosen from general subjects of comprehensive tests to examine the effect of test length on the accuracy of the results of equating. Thus, in comprehensive tests, two 100-item and 40 items sample tests were analyzed with samples of different sizes. The proper equating design in TOLIMO was NEAT design, but in Comprehensive Tests it was homogeneous groups design. Equating methods in the respective tests have been mean, linear, equipercentile, Circle arc and Kernel methods. On the whole, the larger the examinees sample whose scores were taken into account in the analyses was, the lower standard error of equating would be. The findings also showed that whenever there was an increase in both sample size and test length, an improvement was observed in the fitness related to Kernel smoothing as well. Generally, with small sample sizes, Kernel method is more advantageous than other methods of classical equating.