توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه سازی مستندات علمی فارسی(مقاله علمی وزارت علوم)
حوزه های تخصصی:
استخراج کلیدواژه یکی از مهمترین قدم های فرآیند نمایه سازی مستندات است. کلیدواژه ها توصیفگرهای مفهومی هستند که می توانند در جستجو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه ها نقش مهمتری دارند و تخصیص کلیدواژه های تخصصی چالش برانگیزتر است چرا که این پایگاه ها دربرگیرنده اسناد تخصصی با حوزه های علمی مختلفی هستند. فرآیند نمایه-سازی دستی بسیار زمان بر است و با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که این فرایند با سرعت بیشتری صورت گیرد. لذا استفاده از روش های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه ضروری است. تحلیل آماری و معنایی اسناد و استفاده از روش های یادگیری ماشین از جمله روش های پرکاربرد در بسیاری از پایگاه های اطلاعات علمی دنیا است. بر همین اساس، در این پژوهش روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی بر مبنای روش های هوشمند پردازش متن و یادگیری ماشین ارائه شده است. این روش بر مبنای سیستم های پیشنهاددهنده و استدلال نمونه محور است که براساس آن، مجموعه ای از کلیدواژه های مرتبط با یک سند به نمایه ساز پیشنهاد می شود تا او سریعتر بتواند کلیدواژه های مناسب را انتخاب کند. به بیانی دیگر، ابتدا اسناد مشابه با سند جدید براساس روش های TFIDFو روش های بازنمایی کلمه-به-بردار، بازیابی شده و سپس کلیدواژه های کاندید از بین اسناد مشابه براساس یک تابع رتبه بندی انتخاب می شوند. روش پیشنهادی بر مجموعه ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده سازی و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.