مطالب مرتبط با کلیدواژه

پیکره تخصصی


۱.

ساخت پیکره مقایسه ای تخصصی «پارسا»(مقاله علمی وزارت علوم)

کلیدواژه‌ها: پیکره تخصصی پیکره مقایسه ای هنجارسازی واحدسازی برچسب گذاری

حوزه‌های تخصصی:
تعداد بازدید : ۶۲ تعداد دانلود : ۵۲
پیکره ها براساس زبان به کاررفته در متن های تشکیل دهنده آن ها به پیکره های تک زبانه، دوزبانه و چندزبانه گروه بندی می شوند. پیکره مقایسه ای، پیکره ای است دوزبانه یا چندزبانه که شامل متن هایی است مشابه در حوزه های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره ها در پژوهش های گوناگون همچون پژوهش های زبانی، ترجمه ماشینی و سامانه های خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکره های مقایسه ای مواجه بوده اند. در این مقاله، به معرفی مراحل ساخت یک پیکره مقایسه ای تخصصی به نام «پارسا» پرداخته شده است. این پیکره از چکیده های فارسی و انگلیسی پایان نامه ها و رساله های ثبت شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن های بسیار تخصصی در حوزه های موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزه ها است و ازاین جنبه، برای پردازش های زبانی که نیازمند بهره گرفتن از متن های تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، داده های فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان،   0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شده است. سپس، داده ها برچسب گذاری شدند (برچسب گذاری اجزای کلام) و برچسب های متون فارسی کنترل شدند. داده های انگلیسی نیز به صورت ماشینی برچسب گذاری شدند. شمار واژه های محتوایی (فعل، اسم، صفت، قید) داده های فارسی این پیکره 57653813 و شمار واژه های دستوری به همراه اعداد و علائم سجاوندی 31350125  است و بن واژه های فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژه های محتوایی متون انگلیسی 45606686 و شمار واژه های دستوری به همراه اعداد و علائم سجاوندی شامل 33662304 و بن واژه های انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکره ساخته شده قابلیت بسیار بالایی برای داده کاوی، پژوهش های مربوط به ترجمه ماشینی و به کارگیری در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است.
۲.

بررسی افعال سبک در دو پیکرۀ تخصصی فارسی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: فعل مرکب پیکره افعال سبک پیکره تخصصی فراوانی افعال سبک

حوزه‌های تخصصی:
تعداد بازدید : ۳۱ تعداد دانلود : ۲۲
یکی از مقوله هایی که در چارچوب زبان شناسی پیکره ای مورد بررسی قرار گرفته، فعل مرکب است. افعال مرکب از دو بخش «جزء غیرفعلی» و «فعل سبک» تشکیل شده اند. در این پژوهش فراوانی افعال سبک از دو پیکره تخصصی «پیکره پژوهش نامه» و «پکا» (پیکره کتاب های ایرانداک) استخراج شده است و فراوانی سه فعل سبک اول در این دو پیکره با فراوانی افعال سبک در یک پیکره عمومی، یعنی «پیکره متنی فارسی» مقایسه شده است. در این دو پیکره تخصصی، که در مجموع نزدیک به هشت میلیون واژه در این پیکره ها موجود است، از میان افعال سبک «زدن»، «داشتن»، «کردن»، «سپردن»، «گرفتن»، «آمدن»، «دادن»، «افتادن»، «خوردن»، «کشیدن»، «آوردن»، «نمودن»، «رفتن»، «بردن» و «انداختن»، دو فعل سبک «کردن» با فراوانی 5848 و فعل «دادن» با فراوانی 5037، در رتبه اول و دوم از نظر فراوانی قرار دارند؛ فروانی این دو فعل سبک در پیکره عمومی نیز بالا است و در رتبه های نخست قرار دارند. فعل سبک «گرفتن» با فراوانی 3246 در پیکره های تخصصی در رتبه سوم قرار دارد. حال آنکه در پیکره عمومی، فعل سبک «گرفتن» ، از نظر فراوانی بعد از افعال سبک «کردن»، «دادن»، «داشتن» و «نمودن» قرار دارد. پس از استخراج فراوانی افعال سبک و بررسی آن ها، افعال مرکبی که با این سه فعل سبک (کردن، دادن و گرفتن) ساخته می شوند از نظر احتمال فاصله میان جزء غیرفعلی و فعل سبک در بافت تعریف شده (پنج نگاشت قبل و پنج نگاشت بعد از فعل سبک موردنظر) نیز مورد بررسی کلی قرار گرفتند. بررسی رفتار افعال مرکب پربسامد در پیکره های تخصصی نشان داد نویسندگان متون تخصصی، عمدتاً پژوهشگران، دانشجویان و استادان، کمتر تمایل دارند بین جزء غیرفعلی و فعل سبک فاصله بیاندازند و بنابراین، در بیشتر افعال مرکب جزء غیرفعلی و فعل سبک در کنار هم قرار می گیرند و مقوله و گروه نحوی میان آن ها قرار نمی گیرد. در حالیکه در متون عمومی احتمال اینکه نویسندگان گروه/ گروه های نحوی و مقولات گوناگون میان جزء غیرفعلی و فعلی قرار دهند بیشتر از متون تخصصی است.