علی عابدزاده

۱.

مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)

نویسنده: علی عابدزاده رضا رمضانی افسانه فاطمی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۹ بهار ۱۴۰۳ شماره ۳ (پیاپی ۱۱۸) 1109 - 1137

کلید واژه ها: بازیابی اطلاعات مدل های زبان مجموعه داده بازیابی اطلاعات مجموعه داده فارسی

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۳ تعداد دانلود : ۳

هر سامانه بازیابی اطلاعات وظیفه دارد با دریافت یک پُرسه، اسناد مرتبط با آن پُرسه را بازیابی کند. این بازیابی از میان مجموعه ای بزرگ از هزاران تا میلیون ها سند انجام می شود. در سال های اخیر، پژوهش های زیادی برای توسعه سامانه های بازیابی اطلاعات با استفاده از مدل های زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علت های اصلی این امر، نبودِ یک مجموعه داده فارسی مناسب برای آموزش مدل های زبان است. در این پژوهش، ابتدا یک مجموعه داده بازیابی اطلاعات فارسی ارائه شده و پس از آن، روش هایی برای غنی سازی این مجموعه داده مورد بحث قرار گرفته است. این غنی سازی با کمک چندسطحی کردن ارتباط میان پُرسه و سند انجام می شود؛ به نحوی که مجموعه داده جدید می تواند رابطه بین پُرسه و سند را به جای دو سطح (کاملاً نامرتبط، کاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسیار مرتبط، و کاملاً مرتبط) نشان دهد. مجموعه داده ایجادشده PersianMLIR نام دارد. آزمایش ها بیانگر بهبود عملکرد سامانه، هم برای زبان فارسی و هم برای زبان انگلیسی است و این میزان بهبود برای زبان فارسی 87/1 درصد است.

علی عابدزاده

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین

مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

علی عابدزاده

مطالب ترتیب بر اساس: جدیدترینپربازدید‌ترین

مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین