مسعود قیومی

مسعود قیومی

مدرک تحصیلی: دکتری رایانه با گرایش زبانشناسی رایانشی، دانشگاه آزاد برلین، آلمان
رتبه علمی: دانشیار ، گروه گویش شناسی، پژوهشکده زبان شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی
پست الکترونیکی: M.Ghayoomi@ihcs.ac.ir
لینک رزومه

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۱۲ مورد از کل ۱۲ مورد.
۱.

کاربرد رویکرد شناختی فیلمور در تعیین قالب های معنایی افعال در زبان فارسی: مطالعه موردی فعل «شدن»(مقاله علمی وزارت علوم)

کلید واژه ها: معناشناسی شناختی نظریه معناشناسی قالبی فیلمور فریم نت قالب معنایی چندمعنایی سرنمون

حوزه های تخصصی:
تعداد بازدید : 312 تعداد دانلود : 436
«نظریه قالبی فیلمور» (1982) بیان گر اصلی مهم در معناشناسی شناختی است که معتقد است معانی واژه ها درون نظامی از دانش درک می شوند که ریشه در تجربه اجتماعی و فرهنگی انسان دارد. در این نظریه «قالب های معنایی» نمایانگر بخش های یک رویداد هستند که برای اتصال گروهی از کلمات به مجموعه ای از معانی به کار می روند. از طرفی، در یک رویداد، افعال نقش مهمی در تفسیر معنا ایفا می کنند و در اکثر موقعیت های آن حضور دارند. هدف پژوهش حاضر بررسی موردی فعل «شدن» در چارچوب نظریه مذکور بوده است تا از طریق تحلیل پیکره بنیاد و توصیفی به شناسایی این فعل و تعیین حوزه ها و قالب های معنایی آن پرداخته شود. نتیجتاً، با استفاده از فرهنگ ها و پیکره های معاصر فارسی و نیز نگاشت با پایگاه فریم نت 14 قالب معنایی «شدن» شناسایی شد. همچنین، مفهوم «تغییر حالت دادن» به عنوان معنای اصلی این فعل تعیین و قالب اصلی آن ایجاد گردید.
۲.

ارزیابی ساختار هرم وارونه در پیکره بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر(مقاله علمی وزارت علوم)

نویسنده:

کلید واژه ها: پیکره خبری ضریب همبستگی پیرسون معناشناسی توزیعی ورد2وک هرم وارونه خبر

حوزه های تخصصی:
تعداد بازدید : 810 تعداد دانلود : 206
گفتمان خبری گونه ای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری می پردازد. باتوجه به این که در قالب بندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونه خبر برای درجه بندی اهمیت بخش های گفتمانی خبر استفاده می شود. اگرچه رعایت ساختار هرم وارونه خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش می شود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاه های خبری فارسی پرداخته شود. برای رسیدن به هدف می توان از علم داده استفاده کرد. این بین رشته ای از جنبه علمی به تحلیل داده، یافتن مفاهیم ضمنی به دست آمده از تحلیل داده ها و استخراج دانش از داده ها می پردازد. در چارچوب علم داده به بررسی پیکره ای متون خبری فارسی پرداخته شده و وجود رابطه همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونه خبر مورد مطالعه قرار می گیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکره خبری نسبتاً بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری به دست آمده است. پس از پیش پردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک به دست آمده و براساس آن بردار هر خبر ساخته شده است. پس از بخش بندی محتوای هر خبر براساس هرم وارونه خبر به سه قسمت سرنخ (لید)، بدنه و ارائه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شده است. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. به طور متوسط، همبستگی میان عنوان و بدنه خبر بیش از همبستگی میان عنوان و توسعه سرنخ بود. این پژوهش می تواند به عنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبق بر هرم وارونه استفاده گردد.
۳.

کاربرد یادگیری ماشینی مبتنی بر شبکه عصبی برای دسته بندی مستندات علمی(مقاله علمی وزارت علوم)

کلید واژه ها: مستندات علمی علوم انسانی دسته بندی شبکه عصبی فضای برداری ParsBERT معناشناسی توزیعی

حوزه های تخصصی:
تعداد بازدید : 268 تعداد دانلود : 118
از دهه ۱۳۸۰ شمسی، نگارش و انتشار مقالات علمی در ایران شدت بسیار زیادی به خود گرفته و سبب شده است علاوه بر سازمان های دولتی مانند ایرانداک و سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، سامانه های برخط متعدد دیگری چون پرتال جامع علوم انسانی، نورمگز، مگ ایران، علم نت، سیویلیکا و غیره اقدام به مدیریت دانش و تهیه بایگانی های ساختارمند مستندات علمی کند. هرکدام از این بایگانی ها، امکاناتی را در اختیار کاربر قرار می دهد. یکی از این امکانات، قابلیت جستجو است و جستجوی دقیق می تواند بر کاربری این سامانه ها تأثیر به سزایی بگذارد. برای افزایش دقت جستجو نیاز است حوزه علمی مقالات مشخص شود. دسته بندی حجم زیاد منابع علمی در حوزه های مختلف بسیار زمانبر است که استفاده از روش های ماشینی به عنوان یک راه حل می تواند از این کار طاقت فرسا بکاهد. هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش های پیشینِ دسته بندی به طور عمده از الگوریتم های دسته بندی متداول برای متن ساده به کار رفته است، در این پژوهش تلاش می شود علاوه بر استفاده از این دسته بندها، از دسته بندهای مبتنی بر شبکه عصبی، مانند شبکه عصبی پیچشی[۱] و پرسپترون[۲]، به همراه بازنمایی معنایی مبتنی بر بافت، مانند ParsBERT، استفاده گردد و نتایج آن با سایر روش های متداول در ساخت بردار مستندات، مانند Word2Vec، مقایسه گردد. برای این هدف، از داده های پرتال علوم انسانی که دربرگیرنده مقالات متنوع علوم انسانی استفاده می کنیم. ویژگی این داده مشخص بودن حوزه تخصصی هر مقاله است. یکی از ویژگی های شبکه عصبی این است که برایندی از ویژگی های نهفته از داده در فضای برداریِ ساخته شده شکل می گیرد و برای آموزش مدل استفاده می گردد. براساس نتایج عملی، دسته بند پرسپترون مبتنی بر ParsBERT بالاترین کارایی ۷۴/۷۱ درصدی براساس امتیاز F میکرو و کارایی ۷۲/۵۵ درصدی براساس امتیاز F ماکرو را به دست آورده است. [۱] convolutional neural network [۲] perceptron neural network
۴.

بررسی حوزه مفهومی فعل «شنیدن» در زبان فارسی در چارچوب نظریه معناشناسی قالب و اتخاذ اصول شبکه فریم نت(مقاله علمی وزارت علوم)

کلید واژه ها: افعال «شنیدن» و «گوش دادن» پیکره معناشناسی شناختی شبکه معنایی فریم نت نظریه معناشناسی قالبی

حوزه های تخصصی:
تعداد بازدید : 255 تعداد دانلود : 570
تمایزات واژگانی میان زبان ها، بیانگر تفاوت در فرهنگ های مرتبط با هر زبان است. واژه های چندمعنا در هر فرهنگ، می تواند نمودی از این قبیل تمایزات واژگانی در یک زبان باشد. در معناشناسی شناختی، رویکردهای مختلفی به پدیده چندمعنایی در زبان وجود دارد؛ نظریه معناشناسی قالبی یکی از این رویکردها در معناشناسی شناختی است که به مسئله چندمعنایی، از منظر قالب های معنایی نگریسته است. صورت تکامل یافته این نظریه، در شبکه معنایی فریم نت، تحقق پیدا کرده است. قالب های معنایی بسته هایی معنایی هستند و هرکدام از قالب ها از برخی مؤلفه های معنایی تشکیل شده اند. روابط معنایی در این شبکه، به صورت روابط میان قالبی ارائه شده است. در این مقاله، سعی بر آن است تا تحلیلی معنایی و پیکره بنیاد از چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی، بر مبنای اصول شبکه فریم نت در زبان انگلیسی، ارائه شود. براین اساس، دو کلیدواژه مذکور، در پیکره های موجود در پایگاه داده زبان فارسی، بررسی شدند و از میان مفاهیم موجود در جملات شاهد، هفت قالب معنایی «حس فعال»، «ادراک حسی»، «جستجو»، «آگاهی»، «فهمیدن»، «اطاعت» و «توجه» و سه رابطه میان قالبی «توارث» میان قالب والد «ادراک» و فرزند «حس فعال» و قالب والد «ادراک» و فرزند «ادراک حسی» و قالب والد «آگاهی» و فرزند «فهمیدن»، یک رابطه میان قالبی «کاربرد» میان قالب والد «توجه» و فرزند «حس فعال» و یک رابطه میان قالبی «بیشتر» میان قالب های «حس فعال» و «ادراک حسی» استخراج شد. نتایج تحلیل های انجام شده نشان می دهد که رویکرد حاضر به پدیده چندمعنایی، رویکردی کارآمد برای بررسی چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی است.
۵.

بررسی تکوین مباحث مقالات فارسی زبان و زبان شناسی با کمک رایانه(مقاله علمی وزارت علوم)

نویسنده:

کلید واژه ها: تکوین پردازش زبان طبیعی مدل سازی موضوع زبان شناسی پیکره ای مقاله علمی تحلیل محتوایی

حوزه های تخصصی:
تعداد بازدید : 43 تعداد دانلود : 844
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد ۵، ۱۰ و ۱۵ موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.
۶.

تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ(مقاله علمی وزارت علوم)

کلید واژه ها: زبان پهلوی زبان شناسی پیکره ای پایگاه داده نشانه گذاری داده

حوزه های تخصصی:
تعداد بازدید : 694 تعداد دانلود : 836
رویکرد نوین در مطالعات زبان شناختی یا یک پدیده زبانی بر اصل وجود مجموعه ای از داده های زبانی گردآوری شده نهادینه شده است؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شده است. این شیوه پژوهشی برای بررسی داده های زبانی تاریخی که جزء زبان های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به سزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکره زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایه اطلاعاتی، اعم از حرف نویسی متن پهلوی، آوانویسی واژه ها به همراه ترجمه فارسی آنها، تعیین مقوله دستوری دانه ریز واژه ها، بن واژه سازی واژه ها و تعیین هزوارش بودن آنها، تعریف شده است. برای مقوله دستوری دانه ریز واژه ها، مجموعه برچسب مقولات دستوری فارسی معاصر تهیه شده توسط بی جن خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه به نیازهای زبان پهلوی جرح و تعدیل شده است و از مجموعه جدید برای برچسب گذاری واژه های پهلوی استفاده شده است. پس از نشانه گذاری واژه ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می تواند بینش عمیق تری از محتوای متن منتقل نماید. ازاین رو، اطلاعات آماری از پیکره به دست آمده استخراج شده و توضیح داده می شود تا دورنمای کلی نسبت به منابع تشکیل دهنده این پیکره به دست آید.
۷.

نقد و بررسى کتاب دستور زبان فارسی براساس نظریه گروه های خودگردان در دستور وابستگی(مقاله علمی وزارت علوم)

نویسنده:
تعداد بازدید : 110 تعداد دانلود : 322
دستور وابستگی یکی از دستورهای صورتگرا است که براساس وابستگی بین عناصر واژگانی یک جمله بنا نهاده شده است. این وابستگی ها مبتنی بر ظرفیت واژگان است؛ بنابراین، بازنمایی معنایی واژه ها در چارچوب ظرفیت ستون فقرات این دستور است. مقاله حاضر براساس سه رأس مطالب، به بررسی و نقد کتاب «دستور زبان فارسی براساس نظریه گروه های خودگردان در دستور وابستگی» می پردازد. ابتدا مروری مختصر بر فصل های کتاب ارائه می گردد. سپس به تحلیل و ارزیابی اثر پرداخته شده و نقاط ضعف و قوت کتاب از زوایای مختلف بررسی می شود. در این بخش از نظر اصطلاح شناسی و بیان مفاهیم نکاتی مطرح می گردد. ازآنجاکه دستور وابستگی جزء دستورهای زایشی نیست مقایسه ای بین دستور وابستگی و ساخت سازه ای انجام شده است تا درک محتوا برای خواننده ای که پیش زمینه دستور زایشی دارد آسان گردد و از تشویش ذهن وی در مورد برخی مفاهیم پایه ای بکاهد. در انتها درمورد چگونگی توسعه دستور وابستگی در این کتاب، نکات و پیشنهاداتی ارائه می گردد.
۸.

درک ساخت های نحوی مختلف زبان فارسی در کودکان نارساخوان

کلید واژه ها: نارساخوانی مهارت خواندن زبان فارسی درک نحوی

حوزه های تخصصی:
تعداد بازدید : 720 تعداد دانلود : 529
کسب مهارت خواندن، یکی از نیازهای بشری برای اطلاع از اندیشه دیگر افراد جامعه در ادوار مختلف است. الزاماً تمام افراد جامعه در خواندن توانایی یکسانی ندارند. درصدی از افراد جامعه دارای انواع ناتوانی های یادگیری هستند که اختلال خواندن از شایع ترین آن است. اهمیت خواندن و نوشتن و نیز درصد بالای کودکان نارساخوان، توجه محققان زیادی را برای پژوهش در این حوزه به خود جلب کرده  است. از آنجا که ساخت نحوی زبان های مختلف متفاوت است در این پژوهش درک ساخت های نحوی مختلف زبان فارسی در 16 کودک فارسی زبان نارساخوان و 32 کودک همتای سنی طبیعی در پایه دوم با استفاده از آزمون استاندارد درک نحوی بررسی شد. بر اساس نتایج این پژوهش توصیفی-تحلیلی، میانگین درک ساخت های نحوی در گروه نارساخوان به طور معناداری کمتر از گروه طبیعی بود. میان کودکان نارساخوان و کودکان طبیعی همتای سنی در ساخت های نحوی پیچیده تر همچون بندهای موصولی، مجهول، گروه های همپایه، گروه های اسمی دارای حروف اضافه و انواع صفت برتر، تفاوت معنادار وجود داشت. این یافته ها ضمن تأیید نقص نحوی در کودکان نارساخوان، نشان داد این احتمال وجود دارد بخشی از مشکلات کودکان نارساخوان در درک متن، مربوط به مشکلات آنها در درک ساختارهای نحوی زبان باشد؛ لذا لازم است توانایی نحوی کودکان نارساخوان ارزیابی و برنامه های درمانی لازم درباره آموزش ساخت های پیچیده نحوی تهیه شود.
۹.

تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه(مقاله علمی وزارت علوم)

نویسنده:

کلید واژه ها: تعبیه معنایی واژه خوشه بندی یادگیری ماشین بی نظارت فضای برداری پردازش زبان طبیعی بازنمایی معنایی واژه زبان فارسی

حوزه های تخصصی:
تعداد بازدید : 491 تعداد دانلود : 316
واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.
۱۰.

تحلیل معنایی فعل «گفتن» در چارچوب نظریه معناشناسی قالبی: یک بررسی پیکره بنیاد(مقاله علمی وزارت علوم)

کلید واژه ها: نظریه معناشناسی قالبی قالب معنایی فریم نت چندمعنایی مقوله شعاعی

حوزه های تخصصی:
تعداد بازدید : 162 تعداد دانلود : 760
یکی از دستاوردهای مهم زبان شناسی شناختی، «نظریه معنا شناسی قالبیِ» فیلمور (1982) است. این نظریه بیانگر اصلی مهم در معناشناسی شناختی است که بیان می کند معانی واژه ها درون نظامی از دانش درک می شوند که در تجربه اجتماعی و فرهنگی انسان ریشه دارد. درواقع، فیلمور در این نظریه درک معنای واژه ها را از طریق قالب هایی که هر واژه فرا می خواند، میسر می داند و « قالب های معنایی» را نمایانگر بخش های یک رویداد می داند که برای اتصال گروهی از کلمات به مجموعه ای از معا نی به کار می روند . از طرفی، افعا ل به عنوان مهم ترین ارکان زبان در بیشتر حالت ها و اعمال یک رویداد حضور دارند و در تفسیر معنا نقش بسزایی ایفا می کنند. هدف پژوهش حاضر، ارائه تحلیل پیکره بنیاد و توصیفی برای شناسایی حوزه ها و قالب های معنایی فعل «گفتن» در زبان فارسی و ترسیم قالب اصلی آن در چارچوب نظریه معناشناسی قالبی و طرح تحقیقاتی فرهنگ نگاری «فریم نت» است. برای نیل به این هدف، با بهره گیری از فرهنگ ها، پیکره های معاصر فارسی و سامانه فریم نت 44 حوزه و قالب معنایی از فعل «گفتن» در زبان فارسی شناسایی شد . سپس، مفهوم «بر زبان آوردن و بیان کردن» به عنوان معنای اصلی و سر نمون این فعل تعیین و «انگاره شعاعیِ» آن برای نخستین بار ترسیم گردید. در نهایت، قالب اصلی این فعل با استفاده از اصول و مفاهیم مطرح در نظریه قالبی فیلمور ایجاد شد.
۱۱.

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی(مقاله علمی وزارت علوم)

نویسنده:

کلید واژه ها: پردازش زبان طبیعی واحدسازی داده مدل سازی زبانی آماری زبان شناسی پیکره ای

حوزه های تخصصی:
تعداد بازدید : 941 تعداد دانلود : 294
متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان