بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایان نامه ها و رساله های فارسی(مقاله علمی وزارت علوم)
حوزه های تخصصی:
کلمات کلیدی زیر مجموعه ای از کلمات یا عبارات یک سند هستند که می توانند معنای سند را توصیف کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده سازی شده اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE ، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بی معنا یا ایست واژه ها را شامل نمی شوند. در این الگوریتم از برچسب گذاری دستوری کلمات به عنوان ابزاری برای تعیین ضریب اهمیت آن ها در جملات استفاده می شود. کلید واژه ها مجموعه ای از توالی های چندکلمه ای یا تک کلمه ای هستند که طبق معیار های خاصی امتیاز دهی می شوند. در این پژوهش، یک نسخه بهبود یافته از الگوریتم استخراج خودکار کلیدواژه ( RAKE ) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج شده افزایش یابد. راهکار ارائه شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف های موجود در رویکرد های وزن دهی دراین الگوریتم به ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارائه راهکار پیشنهادی از مجموعه ای از فراداده های پایان نامه و رساله های فارسی استفاده شده است. راهکار پیشنهادی روی این داده ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.