مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)
منبع:
پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۹ بهار ۱۴۰۳ شماره ۳ (پیاپی ۱۱۸)
1109 - 1137
حوزه های تخصصی:
هر سامانه بازیابی اطلاعات وظیفه دارد با دریافت یک پُرسه، اسناد مرتبط با آن پُرسه را بازیابی کند. این بازیابی از میان مجموعه ای بزرگ از هزاران تا میلیون ها سند انجام می شود. در سال های اخیر، پژوهش های زیادی برای توسعه سامانه های بازیابی اطلاعات با استفاده از مدل های زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علت های اصلی این امر، نبودِ یک مجموعه داده فارسی مناسب برای آموزش مدل های زبان است. در این پژوهش، ابتدا یک مجموعه داده بازیابی اطلاعات فارسی ارائه شده و پس از آن، روش هایی برای غنی سازی این مجموعه داده مورد بحث قرار گرفته است. این غنی سازی با کمک چندسطحی کردن ارتباط میان پُرسه و سند انجام می شود؛ به نحوی که مجموعه داده جدید می تواند رابطه بین پُرسه و سند را به جای دو سطح (کاملاً نامرتبط، کاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسیار مرتبط، و کاملاً مرتبط) نشان دهد. مجموعه داده ایجادشده PersianMLIR نام دارد. آزمایش ها بیانگر بهبود عملکرد سامانه، هم برای زبان فارسی و هم برای زبان انگلیسی است و این میزان بهبود برای زبان فارسی 87/1 درصد است.