مطالب مرتبط با کلید واژه " پردازش زبان طبیعی "


۱.

تاثیر پیش ویرایش بر کیفیت خروجی ماشین ترجمه پدیده

کلید واژه ها: صحت هوش مصنوعی قابلیت فهم ترجمه ماشینی پردازش زبان طبیعی پیش ویرایش

حوزه های تخصصی:
تعداد بازدید : ۱۰۵۱
هدف این تحقیق بررسی تاثیر پیش ویرایش بر کیفیت خروجی ماشین ترجمه پدیده است. ابتدا متن های خروجی نرم افزار پدیده جهت مشخص کردن مشکلات متداول زبانی این نرم افزار مورد بررسی قرار گرفت؛ سپس با توجه به مشکلات عمده، پیش ویرایش مناسب تعریف شد. پس از اعمال پیش ویرایش، کیفیت خروجی ماشین ترجمه پدیده قبل و بعد از پیش ویرایش با استفاده مدل ارزیابی کارول از لحاظ قابلیت فهم و صحت مورد ارزیابی قرار گرفت. نتایج تحقیق نشان داد که پیش ویرایش، بهبود قابل ملاحظه ای در کیفیت خروجی ماشین ترجمه پدیده به دست نمی دهد.
۲.

نظام نمایه‌سازی وورداسمیت در شبکهء کتابشناختی

نویسنده:

کلید واژه ها: پردازش زبان طبیعی شبکه کتابشناختی (او.سی.ال.سی) نمایه‌سازی (دبلیو.اس) نمایه‌سازی خودکار

حوزه های تخصصی:
تعداد بازدید : ۸۳۳ تعداد دانلود : ۳۷۷
رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینه‌ساز ایجاد انواع متعدد شبکه‌های کتابشناختی گردیده است. دستیابی به اطلاعات الکترونیکی مستلزم استفاده از روش موثر در نمایه‌سازی و تشخیص کلیدواژه‌های مهم بیانگر محتوای یک مدرک است. در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب می‌شود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستم‌نمایه‌سازی ‌خود‌تحت عنوان وورد اسمیت نموده است. مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشین‌خوان، براساس »پردازش زبان طبیعی« است. به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوری‌های زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوری‌های اطلاع‌رسانی و مدل‌های آماری، سعی در ساخت نمایه‌ای داشته است که علاوه بر همخوانی با حجم عظیم داده‌های این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
۳.

بررسی کارآمدی روش‌های موجود در بازیابی اطلاعات بین ‌زبانی فارسی- انگلیسی با استفاده از واژه‌نامه دوزبانه ماشین‌خوان

کلید واژه ها: پردازش زبان طبیعی بازیابی اطلاعات بین زبانی واژه‌نامة دوزبانة ماشین‌خوان ارزیابی بازیابی اطلاعات

حوزه های تخصصی:
تعداد بازدید : ۱۵۶۹ تعداد دانلود : ۷۳۳
در این پژوهش میزان تأثیر انجام پردازش‌های زبان طبیعی بر روی ترجمه عبارت‌های جستجو با آزمون فرضیه‌های پژوهش مشخص گردید. فنون پردازش زبان طبیعی که برای پردازش عبارت‌های جستجو به کار گرفته شد شامل قطعه‌بندی متن، شناخت گونه‌های زبانشناختی، حذف سیاهه بازدارنده، تحلیل مورفولوژیک، و برچسب‌زنی انواع نقش دستوری بود. آزمون فرضیه اول نشان داد که استفاده از روش ترجمه اولین برابرنهاده در مقایسه با شیوه انتخاب همه برابرنهاده‌ها موجب کارآمدی بیشتر در بازیابی می‌گردد. آزمون فرضیه دوم نشان داد که اگرچه تحلیل مورفولوژیک واژه‌هایی که به وسیله واژه‌نامه ترجمه نشدند باعث افزایش ضریب دقت بازیافت می‌گردد، اما تفاوت معناداری با عدم انجام این تحلیل ایجاد نمی نماید. بررسی فرضیه سوم نیز نشان داد که ترجمه عبارتی در مقایسه با ترجمه واژه به واژه باعث کارآمدی بیش‌تر می‌گردد. یافته‌های دیگر این پژوهش نیز نشان داد که دگرنویسی واژه‌های فارسی ترجمه‌ناپذیر با حروف انگلیسی و قرار دادن آن‌ها در عبارت جستجوی نهایی در مقایسه با حذف آن‌ها از عبارت‌های جستجو، می‌تواند منجر به افزایش کارآمدی گردد.
۴.

تحلیل زبان آذری مبتنی بر تقطیع به کمک گرامر پیوندی

کلید واژه ها: پردازش زبان طبیعی تقطیع کننده دستور زبان رابطه ای تحلیل ساخت واژه ای زبان برنامه نویسی دلفی

حوزه های تخصصی:
تعداد بازدید : ۷۵۲ تعداد دانلود : ۳۶۱
انواع مختلفی از نظریه ها درباره مشکل تقطیع نحوی و ایجاد دستور زبان های مربوط به زبان های طبیعی وجود دارند. این مقاله یک دستور زبان نحوی برمبنای صورت بندی دستور زبان رابطه ای برای زبان ترکی (آذری) که جزو زبان های پیوندی می باشد، ارائه می کند. در صورت بندی دستور زبان رابطه ای، کلمات یک جمله بر طبق نقش های نحوی که دارند به یکدیگر متصل می گردند. زبان ترکی (آذری) دارای ساخت واژه ای صرفی و اشتقاقی پیچیده می باشد و تکواژهای صرفی و اشتقاقی، نقش های نحوی مهمی در جملات بازی می کنند. به منظور طراحی نرم افزار دستور زبان رابطه ای برای زبان ترکی (آذری)، بخش های لغوی در بازنمایی ساخت واژه ای کلمات ترکی حذف شده اند و یال ها بر مبنای نشانه های ادات سخن و تکواژهای تصریفی در کلمات ایجاد می شوند. کلمات مشتق شده توسط مرزهای اشتقاقی از دیگر کلمات جدا می شوند . یک صورت بندی منحصربه فرد دستور زبان رابطه ای تطابق یافته با زبان ترکی، دارای انعطاف پذیری لازم برای ایجاد ساخت های اتصال می باشد و در نهایت با استفاده از زبان برنامه نویسی دلفی، نرم افزار دستور زبان رابطه ای برای زبان آذری طراحی و اجرا گردید و سپس با انتخاب 250 جمله تصادفی، این نرم افزار مورد بررسی و آزمون قرارگرفت. برای 31/84% از جملات، نتیجه تقطیع کننده شامل تقطیع کننده های صحیح بود.
۵.

نگاهی به مسأله واژگان در ماشین ترجمه

کلید واژه ها: پردازش زبان طبیعی ماشین ترجمه بازنمایی مفهومی واژگان

حوزه های تخصصی:
تعداد بازدید : ۳۷۹ تعداد دانلود : ۱۷۴
دریافتِ چگونگیِ دسترسیِ ذهنِ انسان به عناصرِ واژگانیِ ذخیره در واژگانِ ذهنی و آگاهی از شیوه بازنماییِ دانش کمک زیادی به طراحی سیستم های پردازشِ زبانِ طبیعی می کند. در این مقاله سعی شده است تا پس از بررسیِ مسأله واژگان در ماشینِ ترجمه، با استفاده از شیوه بازنماییِ مفهومیِ نوعی سیستمِ بازنماییِ واژگان به کمکِ مفاهیم و روابط پیشنهاد شود که می تواند جهتِ بهبودِ عمل کردِ ماشینِ ترجمه به کار رود. درنهایت عمل کردِ این شیوه در زمینه رفعِ ابهامِ واژگانی، در قالبِ نمودارهای مفهومی، نشان داده شده است.
۶.

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت

تعداد بازدید : ۶۸۸ تعداد دانلود : ۱۷۰
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.
۷.

سیستم شناسایی و طبقه بندی موجودیت های اسمی در متون زبان فارسی بر پایه شبکه عصبی

تعداد بازدید : ۱۱۲ تعداد دانلود : ۴۴
شناسایی موجودیت های اسمی به عنوان یک وظیفه پایه ای در حوزه پردازش زبان طبیعی و به طور کلی زیر مجموعه ای از استخراج اطلاعات است. در فرآیند شناسایی موجودیت های اسمی به دنبال مکان یابی عناصر اسمی در متن و دسته بندی آن ها به رده هایی از پیش تعیین شده از قبیل اسامی اشخاص، سازمان ها، مکان ها، عبارت های زمانی، و غیره هستیم. هرچند پژوهش هایی گسترده در توسعه سیستم های شناسایی موجودیت های اسمی در حوزه زبان انگلیسی درطی سال های پیشین انجام گرفته است، متاسفانه با توجه به مشکلات موجود، مانند نبود پیکره های متنی نشانه گذاری شده استاندارد در زبان فارسی، پژوهش های بسیار محدودی در زبان فارسی وجود دارد. در این مقاله با بررسی پژوهش های انجام گرفته در دیگر زبان ها و با بهره گیری از روش های تازه در این حوزه همانند استفاده از نمایش بردارهای عددی برای کلمات، به توسعه سیستمی برای شناسایی موجودیت های اسمی بر پایه شبکه عصبی پرداخته شده است. نتایج بدست آمده از مدل پیشنهادی نشان دهنده این واقعیت است که استفاده از مدل های نمایش بردارهای عددی برای کلمات در زبان فارسی، افزون بر مرتفع کردن مشکل انتخاب ویژگی ها، می تواند به توسعه سیستمی کارآمد منجر شود که کم ترین وابستگی را نیز به دامنه دارد.
۸.

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی

نویسنده:
تعداد بازدید : ۵۹ تعداد دانلود : ۴۱
متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.
۹.

تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه

نویسنده:
تعداد بازدید : ۳۰ تعداد دانلود : ۱۵
واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.
۱۰.

ارتقای بازیابی معنایی اطلاعات با استفاده از برچسب گذاری و هستان شناسی

تعداد بازدید : ۴۷ تعداد دانلود : ۴۱
هدف: بهینه سازی بازیابی معنایی اطلاعات با استفاده از روش های برچسب گذاری و هستان شناسی. روش شناسی: این پژوهش کاربردی با رویکرد تحلیل محتوا انجام شده است. 313 مقاله فارسی در موضوع بازیابی اطلاعات در یک پایگاه اطلاعاتی با قابلیت های جستجوی موضوعی برای دو گروه پیش آزمون و پس آزمون گردآوری شد . پس از برچسب گذاری 5700 واژه به کمک نرم افزار پردازش زبان طبیعی دانشگاه فردوسی مشهد، هستان شناسی مفاهیم و روابط معنایی آنها در محیط پروتژ طراحی و پیاده سازی شد. دقت نتایج بازیابی شده در دو مرحله پیش و پس آزمون سنجیده شد. یافته ها: سطح معنا داری آزمون Z ، به لحاظ آماری و اطمینان 99/0 ، تفاوت معنا داری را میان میزان دقت نتایج مرتبط بازیابی شده در دو گروه پیش آزمون و پس آزمون نشان داد. بنابراین، این ابزارها کارایی پذیرفتنی دارند. نتیجه گیری: دو روش پردازش زبان طبیعی و هستان شناسی به ارتقای بازیابی معنایی اطلاعات منجر می شود.
۱۱.

سنجش شباهت نظرات داوری آزاد و محتوای مقالات علمی به روش پردازش زبان طبیعی

تعداد بازدید : ۰ تعداد دانلود : ۷
هدف : شناسایی قابلیت داوری های آزاد در بازشناخت مقالات پزشکی براساس شباهت آنها به مقالات مربوط. روش شناسی: آزمونی متشکل از 2212 مقاله اف هزار ریسرچ و نظر ات داوری آنها ساخته شد. 100 مقاله به عنوان مدرک پایه به صورت تصادفی انتخاب شد. شباهت نظرات داوری و محتواهای مدارک براساس سنجه شباهت کسینوسی مقادیر <span lang="X-NONE" dir="LTR">TF-IDF در سطح تک واژه ها و دوواژه ها محاسبه شد. شباهت محتوا و نظرات با تحلیل همبستگی اسپیرمن تحلیل شد. صحت پیش بینی شباهت محتوای مقالات براساس شباهت نظرات دریافت شده به کمک منحنی مشخصه عملکرد سامانه آزمون شد. یافته ها : توان نظرات داوران در بازشناخت مقالات مشابه تأیید شد. میان محتوا و نظرات، همبستگی معنادار وجود دارد. منحنی های تحلیل عملکرد سامانه نیز نشان داد شباهت نظرات داوری، خواه در سطح تک واژه ها و خواه دوواژه ای ها توانایی شناسایی مقالات با محتوای مشابه را دارد. نتیجه گیری : اعتبار نظرات داوران ریشه در توان تخصصی و شناختی آنان دارد. بنابراین، نظرات می توانند در شبکه مدارک، در زمره منابع مرتبط اثربخش در بازشناخت مدارک به شمار آیند. این یافته راه را برای پژوهش در کاربرد نظرات کاربران در حوزه های بازیابی، ارزیابی، یا طبقه بندی متون هموار می کند که شباهت محتوایی در آنها اهمیت دارد.
۱۲.

پرکاربردترین عملکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی

تعداد بازدید : ۰ تعداد دانلود : ۹
هدف از پژوهش حاضر، بررسی پرکاربردترین کارکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی بوده است. پژوهش حاضر به روش تحلیل اسنادی یا کتابخانه ای و با مداقه و بررسی و تحلیل متون انجام شده است. یافته ها نشان داد که تاکنون کاربردهای مهمی از پردازش زبان طبیعی در حوزه های مختلف انجام شده است. در این پژوهش پرکاربردترین کارکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی عبارت بودند از: نمایه سازی خودکار، استخراج خودکار اطلاعات یا خلاصه سازی خودکار، بازیابی اطلاعات، بازیابی اطلاعات بین زبانی (نظام بازبین)، بازیابی اطلاعات موسیقیایی، رده بندی خودکار و سیستم های پرسش و پاسخ. نتایج نشان داد که پردازش زبان طبیعی، همچنان دارای قابلیت های خوب و مفیدی در حوزه های مختلف و ازجمله در رشته علوم کتابداری و اطلاع رسانی است که باید با برشمردن مزایا و هزینه ها، نسبت به ادغام پردازش زبان طبیعی در حوزه های موضوعی مختلف اقدام نمود.