افسانه فاطمی

افسانه فاطمی

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۲ مورد از کل ۲ مورد.
۱.

مجموعه داده چندسطحی فارسی برای بازیابی اطلاعات(مقاله علمی وزارت علوم)

کلید واژه ها: بازیابی اطلاعات مدل های زبان مجموعه داده بازیابی اطلاعات مجموعه داده فارسی

حوزه های تخصصی:
تعداد بازدید : ۵ تعداد دانلود : ۶
هر سامانه بازیابی اطلاعات وظیفه دارد با دریافت یک پُرسه، اسناد مرتبط با آن پُرسه را بازیابی کند. این بازیابی از میان مجموعه ای بزرگ از هزاران تا میلیون ها سند انجام می شود. در سال های اخیر، پژوهش های زیادی برای توسعه سامانه های بازیابی اطلاعات با استفاده از مدل های زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علت های اصلی این امر، نبودِ یک مجموعه داده فارسی مناسب برای آموزش مدل های زبان است. در این پژوهش، ابتدا یک مجموعه داده بازیابی اطلاعات فارسی ارائه شده و پس از آن، روش هایی برای غنی سازی این مجموعه داده مورد بحث قرار گرفته است. این غنی سازی با کمک چندسطحی کردن ارتباط میان پُرسه و سند انجام می شود؛ به نحوی که مجموعه داده جدید می تواند رابطه بین پُرسه و سند را به جای دو سطح (کاملاً نامرتبط، کاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسیار مرتبط، و کاملاً مرتبط) نشان دهد. مجموعه داده ایجادشده PersianMLIR نام دارد. آزمایش ها بیانگر بهبود عملکرد سامانه، هم برای زبان فارسی و هم برای زبان انگلیسی است و این میزان بهبود برای زبان فارسی 87/1 درصد است.    
۲.

ParSQuAD: Persian Question Answering Dataset based on Machine Translation of SQuAD 2.0(مقاله علمی وزارت علوم)

تعداد بازدید : ۶۵۴ تعداد دانلود : ۱۱۶
Recent developments in Question Answering (QA) have improved state-of-the-art results, and various datasets have been released for this task. Since substantial English training datasets are available for this task, the majority of works published are for English Question Answering. However, due to the lack of Persian datasets, less research has been done on the latter language, making comparisons difficult. This paper introduces the Persian Question Answering Dataset (ParSQuAD) based on the machine translation of the SQuAD 2.0 dataset. Many errors have been discovered within the process of translating the dataset; therefore, two versions of ParSQuAD have been generated depending on whether these errors have been corrected manually or automatically. As a result, the first large-scale QA training resource for Persian has been generated. In addition, we trained three baseline models, i.e., BERT, ALBERT, and Multilingual-BERT (mBERT), on both versions of ParSQuAD. mBERT achieves scores of  56.66% and 52.86% for F1 score and exact match ratio respectively on the test set with the first version and scores of 70.84% and 67.73% respectively with the second version. This model obtained the best results out of the three on each version of ParSQuAD.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان