نمایه سازی ماشینی مدارک حوزه بازیابی اطلاعات با استفاده از متن کاوی در نرم افزار «رپیدماینر»(مقاله علمی وزارت علوم)
حوزه های تخصصی:
سازگاری کدهای رده بندی و اصطلاحات نمایه سازی از یک اصطلاحنامه مدون با عبارات و کلماتی که به طور خودکار استخراج شده با استفاده از نمایه سازی ماشینی ایجاد می شود. در طراحی نظام نمایه سازی خودکار، کامپیوتر به طور کامل جایگزین انسان می شود. این پژوهش با هدف اس تخراج کلم ات کلی دی و شناسایی گرایش های موضوعی مقالات نمونه آماری در حوزه بازیابی اطلاعات و تخصص موضوعی نویسنده هر مقاله با روش متن کاوی و دسته بندی آنها با استفاده از هم رخدادی واژگان صورت گرفته است. روش این پژوهش از نوع کاربردی است و براساس مدل کریسپ [1] از مدل های فرآیند داده کاوی و الگوریتم های متن کاوی انجام گرفته است. جامعه پژوهش، 313 مقاله حوزه بازیابی اطلاعات نمایه شده در پایگاه نورمگز است. پس از نرمال سازی متن مقالات با نرم افزار ویراستیار، طی متن کاوی مقالات با نسخه 7.1 نرم افزار رپیدماینر، واژگان کلیدی از طریق محاسبه وزن آنها استخراج و داده ها با استفاده از دو الگوریتم کلاسیک دسته بندی یعنی ک.ان.ان. [2] و نایوبیز [3] تجزیه و تحلیل شدند. در پژوهش حاضر، کامپیوتر با کمک ابزارهای متن کاوی نرم افزار رپدماینر، متن ماشین خوان را با استفاده از بسامد واژه ها به طور خودکار نمایه سازی کرده است. بدین منظور با کمک عملگرهای ان-گرام [4] و محاسبه وزن کلمات براساس روش تی.اف ای.دی.اف . [5] ، اصطلاحات و مفاهیم کلیدی و تخصص موضوعی نویسنده هر مقاله در قالب 16 دسته بندی استخراج شده است. سرانجام برتری مدل ک.ان.ان. در دسته بندی موضوعات هسته مقالات این پژوهش با دقت 85 درصدی نسبت به مدل نایوبیز تایید شد . مشاهده نتایج محاسبه دقت های ماخوذه مدل ها، گواه کارایی قابل قبول نرم افزار رپیدماینر در نمایه سازی ماشینی متون است. نمایه سازی متون با استفاده از این روش، می تواند به بهبود نتایج بازیابی اطلاعات و جلوگیری از ریزش کاذب اطلاعات در پایگاه های اطلاعاتی کمک کند.