مطالب مرتبط با کلید واژه " پردازش زبان طبیعی "


۱.

تاثیر پیش ویرایش بر کیفیت خروجی ماشین ترجمه پدیده

کلید واژه ها: صحتهوش مصنوعیقابلیت فهمترجمه ماشینیپردازش زبان طبیعیپیش ویرایش

حوزه های تخصصی:
تعداد بازدید : ۹۵۷
هدف این تحقیق بررسی تاثیر پیش ویرایش بر کیفیت خروجی ماشین ترجمه پدیده است. ابتدا متن های خروجی نرم افزار پدیده جهت مشخص کردن مشکلات متداول زبانی این نرم افزار مورد بررسی قرار گرفت؛ سپس با توجه به مشکلات عمده، پیش ویرایش مناسب تعریف شد. پس از اعمال پیش ویرایش، کیفیت خروجی ماشین ترجمه پدیده قبل و بعد از پیش ویرایش با استفاده مدل ارزیابی کارول از لحاظ قابلیت فهم و صحت مورد ارزیابی قرار گرفت. نتایج تحقیق نشان داد که پیش ویرایش، بهبود قابل ملاحظه ای در کیفیت خروجی ماشین ترجمه پدیده به دست نمی دهد.
۲.

نظام نمایه‌سازی وورداسمیت در شبکهء کتابشناختی

نویسنده:

کلید واژه ها: پردازش زبان طبیعیشبکه کتابشناختی (او.سی.ال.سی)نمایه‌سازی (دبلیو.اس)نمایه‌سازی خودکار

حوزه های تخصصی:
تعداد بازدید : ۷۶۷ تعداد دانلود : ۳۵۰
رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینه‌ساز ایجاد انواع متعدد شبکه‌های کتابشناختی گردیده است. دستیابی به اطلاعات الکترونیکی مستلزم استفاده از روش موثر در نمایه‌سازی و تشخیص کلیدواژه‌های مهم بیانگر محتوای یک مدرک است. در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب می‌شود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستم‌نمایه‌سازی ‌خود‌تحت عنوان وورد اسمیت نموده است. مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشین‌خوان، براساس »پردازش زبان طبیعی« است. به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوری‌های زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوری‌های اطلاع‌رسانی و مدل‌های آماری، سعی در ساخت نمایه‌ای داشته است که علاوه بر همخوانی با حجم عظیم داده‌های این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
۳.

بررسی کارآمدی روش‌های موجود در بازیابی اطلاعات بین ‌زبانی فارسی- انگلیسی با استفاده از واژه‌نامه دوزبانه ماشین‌خوان

کلید واژه ها: پردازش زبان طبیعیبازیابی اطلاعات بین زبانیواژه‌نامة دوزبانة ماشین‌خوانارزیابی بازیابی اطلاعات

حوزه های تخصصی:
تعداد بازدید : ۱۴۱۲ تعداد دانلود : ۶۶۱
در این پژوهش میزان تأثیر انجام پردازش‌های زبان طبیعی بر روی ترجمه عبارت‌های جستجو با آزمون فرضیه‌های پژوهش مشخص گردید. فنون پردازش زبان طبیعی که برای پردازش عبارت‌های جستجو به کار گرفته شد شامل قطعه‌بندی متن، شناخت گونه‌های زبانشناختی، حذف سیاهه بازدارنده، تحلیل مورفولوژیک، و برچسب‌زنی انواع نقش دستوری بود. آزمون فرضیه اول نشان داد که استفاده از روش ترجمه اولین برابرنهاده در مقایسه با شیوه انتخاب همه برابرنهاده‌ها موجب کارآمدی بیشتر در بازیابی می‌گردد. آزمون فرضیه دوم نشان داد که اگرچه تحلیل مورفولوژیک واژه‌هایی که به وسیله واژه‌نامه ترجمه نشدند باعث افزایش ضریب دقت بازیافت می‌گردد، اما تفاوت معناداری با عدم انجام این تحلیل ایجاد نمی نماید. بررسی فرضیه سوم نیز نشان داد که ترجمه عبارتی در مقایسه با ترجمه واژه به واژه باعث کارآمدی بیش‌تر می‌گردد. یافته‌های دیگر این پژوهش نیز نشان داد که دگرنویسی واژه‌های فارسی ترجمه‌ناپذیر با حروف انگلیسی و قرار دادن آن‌ها در عبارت جستجوی نهایی در مقایسه با حذف آن‌ها از عبارت‌های جستجو، می‌تواند منجر به افزایش کارآمدی گردد.
۴.

تحلیل زبان آذری مبتنی بر تقطیع به کمک گرامر پیوندی

کلید واژه ها: پردازش زبان طبیعیتقطیع کنندهدستور زبان رابطه ایتحلیل ساخت واژه ایزبان برنامه نویسی دلفی

حوزه های تخصصی:
تعداد بازدید : ۶۸۴ تعداد دانلود : ۳۱۸
انواع مختلفی از نظریه ها درباره مشکل تقطیع نحوی و ایجاد دستور زبان های مربوط به زبان های طبیعی وجود دارند. این مقاله یک دستور زبان نحوی برمبنای صورت بندی دستور زبان رابطه ای برای زبان ترکی (آذری) که جزو زبان های پیوندی می باشد، ارائه می کند. در صورت بندی دستور زبان رابطه ای، کلمات یک جمله بر طبق نقش های نحوی که دارند به یکدیگر متصل می گردند. زبان ترکی (آذری) دارای ساخت واژه ای صرفی و اشتقاقی پیچیده می باشد و تکواژهای صرفی و اشتقاقی، نقش های نحوی مهمی در جملات بازی می کنند. به منظور طراحی نرم افزار دستور زبان رابطه ای برای زبان ترکی (آذری)، بخش های لغوی در بازنمایی ساخت واژه ای کلمات ترکی حذف شده اند و یال ها بر مبنای نشانه های ادات سخن و تکواژهای تصریفی در کلمات ایجاد می شوند. کلمات مشتق شده توسط مرزهای اشتقاقی از دیگر کلمات جدا می شوند . یک صورت بندی منحصربه فرد دستور زبان رابطه ای تطابق یافته با زبان ترکی، دارای انعطاف پذیری لازم برای ایجاد ساخت های اتصال می باشد و در نهایت با استفاده از زبان برنامه نویسی دلفی، نرم افزار دستور زبان رابطه ای برای زبان آذری طراحی و اجرا گردید و سپس با انتخاب 250 جمله تصادفی، این نرم افزار مورد بررسی و آزمون قرارگرفت. برای 31/84% از جملات، نتیجه تقطیع کننده شامل تقطیع کننده های صحیح بود.
۵.

نگاهی به مسأله واژگان در ماشین ترجمه

کلید واژه ها: پردازش زبان طبیعیماشین ترجمهبازنمایی مفهومی واژگان

حوزه های تخصصی:
تعداد بازدید : ۳۳۲ تعداد دانلود : ۱۵۴
دریافتِ چگونگیِ دسترسیِ ذهنِ انسان به عناصرِ واژگانیِ ذخیره در واژگانِ ذهنی و آگاهی از شیوه بازنماییِ دانش کمک زیادی به طراحی سیستم های پردازشِ زبانِ طبیعی می کند. در این مقاله سعی شده است تا پس از بررسیِ مسأله واژگان در ماشینِ ترجمه، با استفاده از شیوه بازنماییِ مفهومیِ نوعی سیستمِ بازنماییِ واژگان به کمکِ مفاهیم و روابط پیشنهاد شود که می تواند جهتِ بهبودِ عمل کردِ ماشینِ ترجمه به کار رود. درنهایت عمل کردِ این شیوه در زمینه رفعِ ابهامِ واژگانی، در قالبِ نمودارهای مفهومی، نشان داده شده است.
۶.

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت

تعداد بازدید : ۱۸۲ تعداد دانلود : ۵۱
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.
۷.

سیستم شناسایی و طبقه بندی موجودیت های اسمی در متون زبان فارسی بر پایه شبکه عصبی

تعداد بازدید : ۲۱ تعداد دانلود : ۱۷
شناسایی موجودیت های اسمی به عنوان یک وظیفه پایه ای در حوزه پردازش زبان طبیعی و به طور کلی زیر مجموعه ای از استخراج اطلاعات است. در فرآیند شناسایی موجودیت های اسمی به دنبال مکان یابی عناصر اسمی در متن و دسته بندی آن ها به رده هایی از پیش تعیین شده از قبیل اسامی اشخاص، سازمان ها، مکان ها، عبارت های زمانی، و غیره هستیم. هرچند پژوهش هایی گسترده در توسعه سیستم های شناسایی موجودیت های اسمی در حوزه زبان انگلیسی درطی سال های پیشین انجام گرفته است، متاسفانه با توجه به مشکلات موجود، مانند نبود پیکره های متنی نشانه گذاری شده استاندارد در زبان فارسی، پژوهش های بسیار محدودی در زبان فارسی وجود دارد. در این مقاله با بررسی پژوهش های انجام گرفته در دیگر زبان ها و با بهره گیری از روش های تازه در این حوزه همانند استفاده از نمایش بردارهای عددی برای کلمات، به توسعه سیستمی برای شناسایی موجودیت های اسمی بر پایه شبکه عصبی پرداخته شده است. نتایج بدست آمده از مدل پیشنهادی نشان دهنده این واقعیت است که استفاده از مدل های نمایش بردارهای عددی برای کلمات در زبان فارسی، افزون بر مرتفع کردن مشکل انتخاب ویژگی ها، می تواند به توسعه سیستمی کارآمد منجر شود که کم ترین وابستگی را نیز به دامنه دارد.
۸.

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی

نویسنده:
تعداد بازدید : ۲ تعداد دانلود : ۱
متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.