استخراج کلمات و عبارات کلیدی از متون فارسی(مروری بر پژوهش های صورت گرفته)(مقاله علمی وزارت علوم)
حوزه های تخصصی:
استخراج کلمات/ عبارات کلیدی متن، پیش نیاز بسیاری دیگر از وظایف حوزه پردازش زبان طبیعی است. اما بررسی متون فارسی و انگلیسی این حوزه نشان می دهد، تلاش های انگشت شماری برای استخراج کلمات/ عبارات کلیدی از متون فارسی صورت گرفته است. لذا، این مقاله، با هدف تعیین موقعیت کنونی پردازش زبان طبیعی فارسی و به طور خاص استخراج کلمات/ عبارات کلیدی از متون فارسی، به مرور خلاصه ای از مقالات فارسی و انگلیسی منتشر شده در این حوزه که از متون فارسی برای آزمودن ایده هایشان استفاده کرده اند ، می پردازد؛ سپس هر مقاله را از نظر روش شناسی، نحوه اجرا و پیاده سا زی، روش ارزیابی و معیارهای آن مورد تعمق قرار داده و به چالش می کشد . در مجموع 14 مقاله فارسی و 6 مقاله انگلیسی به استخراج کلمات و عبارات کلیدی از متون فارسی پرداخته اند . روش بیشتر این مقالات، استفاده از اطلاعات آماری و زبان شناختی بوده است. اکثر این مقالات یا در روش شناسی انتخاب شده ایراد دارند و یا نویسندگان نتوانسته اند ایده پیشنهادی شان را به وضوح برای خواننده تبیین نمایند. در بسیاری از مقالات، از مجموعه داده استانداردی برای ارزیابی سیستم استفاده نشده و نحوه محاسبه معیارهای ارزیابی مبهم یا دارای اشکال است . در مجموع، به جز 3 مقاله که روش اجرا شده را به نحو نسبتاً قابل قبولی گزارش کرده اند ، سایر مقالات قابلیت تکرار پذیری و تعمیم ندارند. لذا نمی توان از آن ها به عنوان معیار پایه ای برای ارزیابی سیستم های آینده استفاده کرد یا از ایده مطرح شده در آن ها با اطمینان در ساخت و توسعه نرم افزارهای کاربردی و عملی در حوزه استخراج کلمات کلیدی استفاده نمود .