مطالب مرتبط با کلیدواژه

پیکره مقایسه ای


۱.

استخراج خودکار جملات هم تراز انگلیسی-فارسی از متون مقایسه ای با بهره برداری از اطلاعات نحوی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: استخراج خودکار جملات همتراز زبانشناسی پیکره ای پیکره مقایسه ای پیکره موازی

حوزه‌های تخصصی:
تعداد بازدید : ۵۰۰ تعداد دانلود : ۴۳۵
پیکره های موازی همواره از غنی ترین منابع در مباحث پردازش زبان طبیعی محسوب می شوند.  این نوع پیکره ها شامل متون ترجمه شده دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم ترازشده اند. علیرغم کاربرد فراوان این نوع پیکره ها در مطالعات مختلف از جمله پژوهش های زبانی، ترجمه ماشینی آماری و سامانه های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره های موازی مواجه بوده اند. در این راستا، در پژوهش حاضر سعی شده است به منظور تولید پیکره موازی با بهره گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم ترازانگلیسی/فارسی از متون مقایسه ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره گیری از اطلاعات نحوی جملات، یک مدل هم ترازی آموزش داده می شود. دقت مدل هم ترازی،در بهترین حالت، به شکل عملیاتی روی داده های آزمون (208 عدد جفت جمله) 77% و روی داده های آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم داده های طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتم های آموزش مورد استفاده قرار گرفت. به منظور افزایش دقت، از یک الگوریتم جست وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده های آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با به کارگیری مدل هم ترازی به دست آمده، به تولید ابزار هم ترازی دانشگاه اصفهان منجر شد، که می تواند به منظور خودکفایی در تولید پیکره های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
۲.

جهانی های ترجمه در بوته نقد پیکره ای: مقایسه فارسی ترجمه ای با فارسی تألیفی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: جهانی ترجمه پیکره مقایسه ای فارسی ترجمه ای جهانی های زبان مقصد

حوزه‌های تخصصی:
تعداد بازدید : ۳۳۹ تعداد دانلود : ۱۸۱
یکی از مسائل مهم در حوزه مطالعات توصیفی ترجمه مفهوم جهانی های ترجمه است که موضوع آن یافتن ویژگی های خاص و بارز زبان ترجمه ای به مثابه زبانی متفاوت از زبان مبدأ و مقصد است. پرسشی که در اینجا مطرح می شود این است که با توجه به تفاوت های بین زبان ها آیا ویژگی های جهانی ادعایی (که عمدتاً حاصل بررسی بر روی زبان های اروپایی هستند) در زبان های غیراروپایی نیز وجود دارند یا خیر. مطالعه حاضر با استفاده از تقسیم بندی چسترمن ( 2004 ) از جهانی ها به دو نوع «جهانی های مبدأ» و «جهانی های مقصد»، دسته دوم را موردواکاوی قرار می دهد. این پژوهش، با استفاده از یک پیکره مقایسه ای برساخته از متون توضیحی فارسی تألیفی و ترجمه ای، دو جهانی «ساده سازی» و «تصریح» را موردبررسی قرار می دهد. نتایج این مطالعه، در پرتو یافته های مربوط به ویژگی های فارسی ترجمه ای، وجود ویژگی های جهانی ادعایی در فارسی ترجمه ای را به چالش می کشد و نشان می دهد که هیچ کدام از ویژگی های مستخرج از پیکره مقایسه ای زبان فارسی با نظریات پیشین مطرح شده همخوانی ندارند.
۳.

ساخت پیکره مقایسه ای تخصصی «پارسا»(مقاله علمی وزارت علوم)

کلیدواژه‌ها: پیکره تخصصی پیکره مقایسه ای هنجارسازی واحدسازی برچسب گذاری

حوزه‌های تخصصی:
تعداد بازدید : ۱۱ تعداد دانلود : ۱۴
پیکره ها براساس زبان به کاررفته در متن های تشکیل دهنده آن ها به پیکره های تک زبانه، دوزبانه و چندزبانه گروه بندی می شوند. پیکره مقایسه ای، پیکره ای است دوزبانه یا چندزبانه که شامل متن هایی است مشابه در حوزه های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره ها در پژوهش های گوناگون همچون پژوهش های زبانی، ترجمه ماشینی و سامانه های خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکره های مقایسه ای مواجه بوده اند. در این مقاله، به معرفی مراحل ساخت یک پیکره مقایسه ای تخصصی به نام «پارسا» پرداخته شده است. این پیکره از چکیده های فارسی و انگلیسی پایان نامه ها و رساله های ثبت شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن های بسیار تخصصی در حوزه های موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزه ها است و ازاین جنبه، برای پردازش های زبانی که نیازمند بهره گرفتن از متن های تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، داده های فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان،   0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شده است. سپس، داده ها برچسب گذاری شدند (برچسب گذاری اجزای کلام) و برچسب های متون فارسی کنترل شدند. داده های انگلیسی نیز به صورت ماشینی برچسب گذاری شدند. شمار واژه های محتوایی (فعل، اسم، صفت، قید) داده های فارسی این پیکره 57653813 و شمار واژه های دستوری به همراه اعداد و علائم سجاوندی 31350125  است و بن واژه های فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژه های محتوایی متون انگلیسی 45606686 و شمار واژه های دستوری به همراه اعداد و علائم سجاوندی شامل 33662304 و بن واژه های انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکره ساخته شده قابلیت بسیار بالایی برای داده کاوی، پژوهش های مربوط به ترجمه ماشینی و به کارگیری در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است.