ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون(مقاله علمی وزارت علوم)
حوزه های تخصصی:
گسترش روزافزون داده های متنی فارسی در فضای اینترنت و پیچیدگی جستجو در میان انبوه این اسناد، خلاصه سازی خودکار متون فارسی را به یکی از زمینه های تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصه سازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که به صورت انتخابی و تک سندی است، خلاصه سازی را بر اساس رتبه بندی جملات و انتخاب مهم ترین آنها انجام می دهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبان شناختی مستخرج از سند برای هر جمله بدست می آید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشرده سازی مورد نظر انتخاب می شود. این جمله علاوه بر اینکه دارای بیشترین اهمیت است، دارای کمترین میزان شباهت با جملات انتخاب شده در مراحل قبلی نیز است. نتایج بدست آمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصه ساز ایجاز و فارسی سام با استفاده از پیکره پاسخ، نشان می دهد در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل شده است.