ترجمه ماشینی مبتنی بر مدل مبدل برای گویش های لری بویراحمدی و یزدی به فارسی معیار و گسترش منابع زبانی رایانشی مرتبط (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

نویسندگان: زهرا بهمنی محدثه میربیگی نگین هاشمی دیجوجین مرضیه نوری مهسا امانی احسان الدین عسگری مهدیه سلیمانی باغشاه حمید بیگی علی موقر

منبع: زبان و زبان شناسی دوره 19 پاییز و زمستان 1402 شماره 37

کلید واژه ها: پردازش زبان طبیعی گویش لری گویش یزدی ترجمه تمایزهای زبانی ایرانی مدل یادگیری ژرف ترجمه ماشینی

حوزه های تخصصی:

حوزه‌های تخصصی زبان شناسی

doi: 10.30465/lsi.2024.43456.1640

شماره صفحات: ۱۵۳ - ۱۷۲

دریافت مقاله تعداد دانلود : ۱۹

آرشیو

چکیده

با وجود تلاش های گسترده رایانشی بر روی گویش معیار فارسی، سایر لهجه ها و گویش ها و زبان های ایرانی کمتر مورد توجه محققین حوزه زبان شناسی رایانشی قرار گرفته اند. یکی از مهم ترین چالش های کار رایانشی بر روی این تمایز های زبانی، نبود یک مجموعه داده دیجیتال و استاندارد است. در این پژوهش اولین مجموعه داده تک زبانه و نیز داده موازی بر روی گویش های لری و یزدی که گویش هایی با منابع محدود محسوب می شوند، در مقابل فارسی معیار ارائه شده است. در ادامه مدل های یادگیری ژرف ترجمه ماشینی کدگذار-کدگشا در دو نوع مدل شبکه عصبی بازگشتی و مدل ژرف مبدل برای این گویش ها به فارسی معیار توسعه یافته و ارزیابی گردیده است. در این پژوهش که اولین تلاش محاسباتی روی این دو گویش محسوب می شود، برای ترجمه لری به فارسی و فارسی به لری به امتیاز BLEU به ترتیب ۳۹/7 و 29/3 رسیدیم. این امتیاز برای گویش یزدی به فارسی معیار و برعکس به 73/0 و 77/0 رسید. که نشان می دهند پژوهش های فراتری برای توسعه منابع زبانی برای این زبان نیاز است.

Linguistic Resources and Transformer-based Models for the Machine Translations between Luri and Yazdi Dialects versus Standard Persian

Despite recent advances in developing language technologies for the standard Persian dialect, the official Iranian language, a large number of Iranian language variations remained computationally unexplored. Iranian languages, e.g., Kurdi, Azeri, and many Persian dialects are examples of low-resource language distinctions lacking significant linguistic resources such as machine-readable lexicons or part-of-speech (POS) taggers. Efforts in developing language technologies for such languages can significantly contribute to language survival in the digital era and promote cultural diversity. To the best of our knowledge, for the first time, we created linguistic resources for the Luri and the Yazdi dialects by introducing the first parallel corpora between these language variations and the modern Persian language. In this study, we train neural encoder-decoders (1) recurrent sequence-to-sequence and (2) transformer-based machine translation models and evaluate the trained model using BLEU score on an unseen test dataset.Availability of datasets and models: Datasets are available here at https://github.com/language-ml/dataset_yazdi_luri.git

ترجمه ماشینی مبتنی بر مدل مبدل برای گویش های لری بویراحمدی و یزدی به فارسی معیار و گسترش منابع زبانی رایانشی مرتبط (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها:
۳۶

سال ۱۴۰۲ (۱)

سال ۱۴۰۱ (۲)

سال ۱۴۰۰ (۲)

سال ۱۳۹۹ (۲)

سال ۱۳۹۸ (۲)

سال ۱۳۹۷ (۲)

سال ۱۳۹۶ (۲)

سال ۱۳۹۵ (۲)

سال ۱۳۹۴ (۲)

سال ۱۳۹۳ (۲)

سال ۱۳۹۲ (۲)

سال ۱۳۹۱ (۲)

سال ۱۳۹۰ (۲)

سال ۱۳۸۹ (۲)

سال ۱۳۸۸ (۲)

سال ۱۳۸۷ (۱)

سال ۱۳۸۶ (۲)

سال ۱۳۸۵ (۲)

سال ۱۳۸۴ (۲)

چکیده

Linguistic Resources and Transformer-based Models for the Machine Translations between Luri and Yazdi Dialects versus Standard Persian

تبلیغات

ترجمه ماشینی مبتنی بر مدل مبدل برای گویش های لری بویراحمدی و یزدی به فارسی معیار و گسترش منابع زبانی رایانشی مرتبط (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها: ۳۶

چکیده

Linguistic Resources and Transformer-based Models for the Machine Translations between Luri and Yazdi Dialects versus Standard Persian

تبلیغات

آرشیو شماره ها:
۳۶