کاربست قوانین انجمنی و خوشه بندی در کنترل کیفیت داده های پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)
پایگاه های اطلاعات علمی و موتورهای جستجو از ابزارهای اصلی کار پژوهشگران است. برای بازیابی دقیق و صحیح اطلاعات از این پایگاه ها نیاز است که اطلاعات با کیفیت مناسب وبا کمترین خطا ذخیره شوند. کنترل دستی اطلاعات زمانبر و پر هزینه است، در این مقاله، روش های داده کاوی برای کنترل کیفیت یک پایگاه اطلاعات پژوهشی معرفی می شود. برای این منظور ابتدا باید اطلاعاتی از خطاهای مرسوم را در کنار سایر اطلاعات هر رکورد جمع آوری کرد. سپس با استفاده از روش های داده کاوی الگوهای پنهان و روابط بین خطاها را کشف کرد و بر این اساس راه های بهبود کیفیت داده را ارائه داد. در این مقاله پایگاه اطلاعات علمی ایران (گنج)، به عنوان مطالعه موردی در نظر گرفته شد. 59 کد خطا توسط خبرگان تعریف شد. سپس اطلاعات فراداده هر رکورد مثل نام دانشگاه، نام رشته،گرایش و حوزه تخصصی مدرک به همراه کدهای خطای آن در یک مجموعه داده ذخیره شد. این مجموعه داده شامل 41021 رکورد در حوزه های مختلف است. با استفاده از روش های آماری و قوانین انجمنی رابطه بین خطاها و الگوی تکرار آنها را درهرحوزه بررسی شد. نتایج نشان داد به طور میانگین با در نظر گرفتن 25 درصد از خطاها در هر حوزه، می توان تا 80 درصد از خطاهای همه رکوردهای یک حوزه را کاهش داد. این خطاها شامل خطاهای پر تکرار در هر حوزه و همچنین خطاهایی است که با آن ها رابطه قوی دارند. با استفاده از روش خو شه بندی k-means رکوردها خوشه بندی شدند. نتایج نشان داد اگر چه شباهت هایی بین رکوردها از حوزه های مختلف وجود دارد، اما رابطه معناداری بین حوزه رکوردها و الگوی تکرار خطاها وجود ندارد.