علی  عابدزاده

علی عابدزاده

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۱ مورد از کل ۱ مورد.
۱.

مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)

کلید واژه ها: بازیابی اطلاعات مدل های زبان مجموعه داده بازیابی اطلاعات مجموعه داده فارسی

حوزه های تخصصی:
تعداد بازدید : ۶ تعداد دانلود : ۷
هر سامانه بازیابی اطلاعات وظیفه دارد با دریافت یک پُرسه، اسناد مرتبط با آن پُرسه را بازیابی کند. این بازیابی از میان مجموعه ای بزرگ از هزاران تا میلیون ها سند انجام می شود. در سال های اخیر، پژوهش های زیادی برای توسعه سامانه های بازیابی اطلاعات با استفاده از مدل های زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علت های اصلی این امر، نبودِ یک مجموعه داده فارسی مناسب برای آموزش مدل های زبان است. در این پژوهش، ابتدا یک مجموعه داده بازیابی اطلاعات فارسی ارائه شده و پس از آن، روش هایی برای غنی سازی این مجموعه داده مورد بحث قرار گرفته است. این غنی سازی با کمک چندسطحی کردن ارتباط میان پُرسه و سند انجام می شود؛ به نحوی که مجموعه داده جدید می تواند رابطه بین پُرسه و سند را به جای دو سطح (کاملاً نامرتبط، کاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسیار مرتبط، و کاملاً مرتبط) نشان دهد. مجموعه داده ایجادشده PersianMLIR نام دارد. آزمایش ها بیانگر بهبود عملکرد سامانه، هم برای زبان فارسی و هم برای زبان انگلیسی است و این میزان بهبود برای زبان فارسی 87/1 درصد است.    

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان