استخراج ویژگی های متنی و معنایی در یادگیری رتبه بندی جهت بازیابی اسناد وب (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

درجه علمی در دسته‌بندی سابق وزارت علوم: علمی-پژوهشی

نویسندگان: محدثه محجوب فائزه انسان ساناز کشوری پرستو جعفرزاده محمدامین کیوان زاد

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره 36 تابستان 1400 شماره 4 (پیاپی 106)

کلید واژه ها: یادگیری رتبه بندی ویژگی های معنایی بازیابی اسناد وب داده های پیوندی

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

شماره صفحات: ۱۰۸۱-۱۱۱۲

دریافت مقاله تعداد دانلود : ۲۵۶

آرشیو

چکیده

با ظهور وب معنایی، تعریف و استفاده از ویژگی های معنایی در الگوریتم های یادگیری رتبه بندی هم مطرح شده است. یک چالش مهم در این زمینه عدم استفاده از ویژگی های جامع و همچنین، عدم ترکیب کامل از ویژگی های متنی و معنایی است. در این مقاله، با تعریف ویژگی های معنایی جدید در چهار دسته ویژگی های مبتنی بر گراف و پایگاه دانش، ویژگی های مبتنی بر تکرار موجودیت، ویژگی های مبتنی بر فیلدهای متنی، و ویژگی های مبتنی بر نمایش برداری کلمات و متون به این چالش پاسخ داده شده است. جهت ارزیابی از مجموعه داده MQ-2007 متعلق به LETOR4، که حاوی ویژگی های متنی آماده است، و شش الگوریتم یادگیری رتبه بندی استاندارد استفاده شده است. نتایج تجربی نشان می دهد که ویژگی های معنایی و نیز ترکیب آن ها با ویژگی های متنی باعث بهبود 50 درصدی نسبت به استفاده از تنها ویژگی های متنی می شوند. در انتها، از یک الگوریتم انتخاب ویژگی برای انتخاب بهترین ویژگی های معنایی استفاده شده که منجر به بهبود 7 درصدی نسبت به الگوریتم های رتبه بندی بدون انتخاب ویژگی شده است.