ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

درجه علمی در دسته‌بندی سابق وزارت علوم: علمی-پژوهشی

نویسندگان: مسعود قیومی

منبع: زبان و زبان شناسی دوره چهاردهم بهار و تابستان 1397 شماره 27

کلید واژه ها: پردازش زبان طبیعی واحدسازی داده مدل سازی زبانی آماری زبان شناسی پیکره ای

حوزه های تخصصی:

حوزه‌های تخصصی زبان شناسی

شماره صفحات: ۲۱-۵۰

دریافت مقاله تعداد دانلود : ۳۲۹

آرشیو

چکیده

متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها:
۳۶

سال ۱۴۰۲ (۱)

سال ۱۴۰۱ (۲)

سال ۱۴۰۰ (۲)

سال ۱۳۹۹ (۲)

سال ۱۳۹۸ (۲)

سال ۱۳۹۷ (۲)

سال ۱۳۹۶ (۲)

سال ۱۳۹۵ (۲)

سال ۱۳۹۴ (۲)

سال ۱۳۹۳ (۲)

سال ۱۳۹۲ (۲)

سال ۱۳۹۱ (۲)

سال ۱۳۹۰ (۲)

سال ۱۳۸۹ (۲)

سال ۱۳۸۸ (۲)

سال ۱۳۸۷ (۱)

سال ۱۳۸۶ (۲)

سال ۱۳۸۵ (۲)

سال ۱۳۸۴ (۲)

چکیده

تبلیغات

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها: ۳۶

چکیده

تبلیغات

آرشیو شماره ها:
۳۶