بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت(مقاله علمی وزارت علوم)
حوزه های تخصصی:
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.