آرشیو

آرشیو شماره ها:
۱۱۷

چکیده

امروزه شاهد گسترش استفاده از روش های پیکره بنیاد در زبان شناسی هستیم. پژوهش حاضر به بررسی تکنیک های بهبود عملکرد روش های بسامد شماری در زبان فارسی و با منظور دستیابی به رویه علمی جهت استخراج خودکار واژگان پایه علوم پزشکی انجام پذیرفته است.استفاده از روشهای آماری در کنار ابزار زبانشناسی پیکره ای ( روشهای استخراج خودکار ترکیبی )جهت استخراج خودکار واژگان در تعدادی از زبانهای دنیا همچون انگلیسی ،فرانسه،ژاپنی و کره ای طی چند دهه اخیر بسیار رایج بوده است ، حال آنکه در زبان فارسی این روشها تا کنون به صورت جدی مورد استفاده قرارگرفته نشده اند و اغلب استخراج ها در زبان فارسی به روش سنتی انجام گرفته اند. ضمن آنکه بکار گیری این روشها در هر زبانی متفاوت است و در هر زبان با توجه به ویژگیهای زبانشاختی آن زبان برون داد روشهای آماری متفاوت است. از این رو باید مطابق با ویژگیهای هر زبان در این روشها تغییراتی اعمال کرد تا در نهایت بتوان به روشی جهت استخراج خودکار واژگان دست یافت.جهت نیل به این هدف در زبان فارسی، از خانواده مدل های بسامد شماری با رویکردهای بسامد شماری پیکره عمومی، بسامد شماری پیکره اختصاصی و روش های بهبودیافته آن ها استفاده شده است. بسامدشماری به کار رفته در پژوهش، برپایه پردازش اطلاعات واژگان در دو پیکره اصلی و اختصاصی که محقق آنرا ایجاد کرده است و از این پس آنرا پیکره محقق ساخته می نامیم، صورت گرفته است . پیکره محقق ساخته شامل متون درس زیست شناسی دوره اول تا چهارم دبیرستان، متون درس علوم دوم و سوم راهنمایی، متون تدریس شده در مرکزآموزش زبان فارسی امام خمینی قزوین، مجلات و مقالات حوزه پزشکی عمومی و پیکره عمومی مورد استفاده ، پیکره روزنامه همشهری ( نسخه دوم) می باشد. نتایج بدست آمده نشان می دهد که قابلیت استفاده از روش های بسامد شماری پیکره بنیاد در زبان فارسی برای دست یافتن به شیوه ای واحد در استخراج خودکار واژگان وجود دارد.شیوه آتی که به یقین می تواند گامی موثر در تهیه و تدوین متون آموزشی زبان فارسی و گسترش آموزش این زبان به شمار آید. از عمده ترین مشکلات استفاد از روش های ساده، جداسازی واژگان پرتکرار همچون حروف ربط را می توان برشمرد. از این رو جهت بالابردن توان مدل با اعمال روش هایی می توان روش های اولیه را بهبود بخشید. مشاهده می شود که روش بسامدشماری بهبود یافته در پیکره اختصاصی از سایر روش ها عملکرد بهتری داشته و تا ۶۰ درصد واژگان تخصصی را در ۵۰ واژه پر بسامد شناسایی می نماید. از سوی دیگر مشاهده می گردد که با افزایش دامنه واژگان مورد بررسی در پژوهش از ۵۰ به ۱۰۰، ۱۵۰ و ۲۰۰ دقت مدل ها افزایش یافته و درصد واژگان تخصصی انتخاب شده به ثبات می رسد.

تبلیغات