مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدل های بومی نمایه سازی خودکار را با توجه به ویژگی های هر زبان طراحی کرد. این مدل ها باید به گونه ای طراحی شود که جامعیت و مانعیت نمایه سازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحله ای شکاف – گلچین برای نمایه سازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده می شود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژه های نویسنده سنجیده خواهد شد. روش: مدل نمایه سازی خودکار فارسی به همراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می شود که برای تعیین درصد همخوانی بین نمایه سازان مورد استفاده قرار می گیرد. برای این کار، میزان همخوانی اصطلاحات نمایه ای که از پیاده سازی الگوریتم این مدل حاصل شده اند، با کلیدواژه های نویسندگان مقالات بررسی می گردد. یافته ها: یافته ها نشان داد که در 90 درصد از موارد، اصطلاحی که این مدل در یک مقاله به عنوان پروزن ترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژه نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژه های نویسندگان 76 درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر می رسد. اصالت/ارزش: ارزش اولیه این کار پرداختن به نمایه سازی خودکار با توجه به ویژگی های زبان فارسی است. برای پیاده سازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبان های برنامه نویسی پشتیبانی می شود و نیاز به نصب و استفاده از جدول های بانک اطلاعاتی را برای پردازش متن کاهش می دهد. همچنین، مشکل تعیین آستانه بالایی اصطلاحات اصلی را حل می کند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین می کند؛ به گونه ای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایه سازی را تضمین می کند.