نصرالله پاک نیت

تجزیه متون استنادی در زبان فارسی با استفاده از ماشین بُردار پشتیبان(مقاله علمی وزارت علوم)

نویسنده: نصرالله پاک نیت جلال الدین نصیری

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۷ تابستان ۱۴۰۱ شماره ۴ (پیاپی ۱۱۰) ۱۲۴۵-۱۲۶۸

کلید واژه ها: تجزیه متون استنادی دسته بندی دسته بندی چند دسته ای ماشین بردار پشتیبان ساخت خودکار شبکه های استنادی

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۳۸۳ تعداد دانلود : ۱۹۱

یک متن استنادی را می توان به عنوان مجموعه ای از مولفه ها مانند نام نویسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالیکه تجزیه متون استنادی موجود در انتهای یک مدرک علمی توسط کاربر انسانی به راحتی انجام پذیر است، تنوع موجود در شیوه های استناددهی در کنار اشتباهات رخ داده توسط نویسندگان در نگارش این متون، خودکارسازی انجام این عملیات را دشوار نموده است. روش های زیادی برای خودکارسازی تجزیه متون استنادی ارائه شده اما، این روش ها وابسته به زبان بوده و امکان استفاده از یک روش ارائه شده برای یک زبان در زبانی دیگر منجر به نتایجی اشتباه می شود. تحقیقات صورت گرفته بیان گر این است که تاکنون هیچ روشی برای خودکارسازی تجزیه متون استنادی در زبان فارسی ارائه نشده است. با توجه به این مهم و نقش گسترده این مسئله در ساخت خودکار شبکه های استنادی مدارک علمی و فرایندهای بازیابی اطلاعات، در این مقاله به این مسئله پرداخته شده و با استفاده از روش یادگیری ماشین بردار پشتیبان به عنوان یک دسته بند چند دسته ای، یک روش هوشمند برای مسئله تجزیه متون استنادی در زبان فارسی ارائه شده است. با توجه به اهمیت انتخاب ویژگی های مناسب برای استفاده در دسته بند ماشین بردار پشتیبان، در این پژوهش این مهم با توجه به ویژگی های استفاده شده در زبان انگلیسی و ویژگی های زبان فارسی و ارجاع دهی در این زبان انجام شده است. نتایج پیاده سازی و آزمایش روش پیشنهادی با استفاده از مجموعه داده ای ایجاد شده در این پژوهش نشانگر مقدار ۰.۹۵ برای پارامترهای دقت، فراخوانی و اف-۱ است.

۲.

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش های معنایی و احتمالاتی(مقاله علمی وزارت علوم)

نویسنده: نصرالله پاک نیت آزاده محبی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۴ تابستان ۱۳۹۸ شماره ۴ (پیاپی ۹۸) 1823-1848

کلید واژه ها: تشخیص سرقت علمی همانندجویی معنایی همانندجویی احتمالاتی متون بازنویسی شده

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۴۸۰ تعداد دانلود : ۲۹۲

همانندجویی ابزاری است که از آن برای تشخیص سرقت علمی/ادبی استفاده می شود. در یک روش همانندجویی، هدف تشخیص تمام قسمت های همانند موجود در یک متن مشکوک با توجه به تعدادی متن منبع احتمالی است. روش های زیادی برای همانندجویی ارائه شده اما از یک طرف، استفاده از روش های همانندجوی موجود برای سایر زبان ها به منظور همانندجویی در زبان فارسی مناسب نیست و از طرف دیگر، اغلب روش های ارائه شده برای همانندجویی در زبان فارسی قادر به تشخیص متون بازنویسی شده نیستند. با توجه به این مهم، در این مقاله دو روش همانندجویی جدید با هدف تشخیص متون فارسی بازنویسی شده ارائه خواهد شد. روش شناسی پژوهش براساس مطالعه منابع و مستندات معتبر علمی در این خصوص و روش کتابخانه ای است. روش اول پیشنهادی روشی معنایی است و از لغت نامه جهت بررسی همانندی جملات متون استفاده می کند. روش دوم پیشنهادی روشی احتمالاتی است و از اطلاعات آماری به دست آمده از پیکره ای عظیم از متون برای همانندجویی استفاده می کند. روش معنایی پیشنهادی در مقاسیه با روش های معنایی موجود از معیارهای جدیدتری برای بررسی همانندی متون استفاده کرده و روش احتمالاتی پیشنهادی اولین روش همانندجویی احتمالاتی ارائه شده برای زبان فارسی است. علاوه بر این، درحالیکه در سایر روش های موجود، همانندی هر دو جمله از متون موردنظر به صورت مستقل بررسی می شود، در روش های پیشنهادی همانندی جملات همسایه نیز در بررسی همانندی دو جمله در نظر گرفته شده است. نتایج پیاده سازی و آزمایشات صورت گرفته بر روی روش های پیشنهادی نشان می دهد که در حالیکه هر دو روش از کیفیت مناسب و تقریبا یکسانی برخوردار هستند، روش همانندجوی احتمالاتی پیشنهادی بسیار کاراتر بوده و زمان موردنیاز برای همانندجویی با استفاده از آن به طور متوسط برابر با 3.8% زمان موردنیاز توسط الگوریتم همانندجوی معنایی پیشنهادی است

نصرالله پاک نیت

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین

تجزیه متون استنادی در زبان فارسی با استفاده از ماشین بُردار پشتیبان(مقاله علمی وزارت علوم)

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش های معنایی و احتمالاتی(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

نصرالله پاک نیت

مطالب ترتیب بر اساس: جدیدترینپربازدید‌ترین

تجزیه متون استنادی در زبان فارسی با استفاده از ماشین بُردار پشتیبان(مقاله علمی وزارت علوم)

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش های معنایی و احتمالاتی(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین