مسعود قیومی

مسعود قیومی

مدرک تحصیلی: دکتری رایانه با گرایش زبانشناسی رایانشی، دانشگاه آزاد برلین، آلمان
رتبه علمی: دانشیار ، گروه گویش شناسی، پژوهشکده زبان شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی
پست الکترونیکی: M.Ghayoomi@ihcs.ac.ir
لینک رزومه

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۱۶ مورد از کل ۱۶ مورد.
۱.

تحلیل پیکره ای بر حرف اضافه «از» در کتب درسی پایه های اول تا ششم: رویکرد شناختی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: معنی شناسی شناختی نظریه پیش نمونه چندمعنایی پیکره کتب درسی

حوزه های تخصصی:
تعداد بازدید : ۲۰ تعداد دانلود : ۱۴
هدف از مطالعه حاضر، بررسی حرف اضافه «از» در کتاب های درسی است. چندمعنایی حرف اضافه موجب اشکالاتی در دریافت و درک بسیاری از دانش آموزان می شود. در این پژوهش از پیکره متنی کتب درسی فارسی، علوم، هدیه های آسمانی و مطالعات اجتماعی از پایه اول تا ششم ابتدایی بهره گرفته ایم. در تحلیل داده ها از رویکردهای پیش نمونه راش (Rosch) (1975) و چندمعنایی نظام مند تایلر و ایوانز (Tyler & Evans) (2003) در چارچوب معنی شناسی شناختی استفاده شده است. ابتدا جملات شاهد حاوی حرف اضافه «از» از پیکره جداسازی شدند. مجموعه معانی به دست آمده از مطالعه این زیرپیکره عبارتند از: «نوع»، «جزء کل»، «منشأ»، «زمان»، «قیاس»، «به وسیله، به کمک، با»، «درباره»، «جهت»، «حرکت»، «مجاز» و «متمّم». توزیع آماری معانی در کلّ زیرپیکره (دامنه عام) به معنی «جزء کل» تعلق دارد. معانی این حرف اضافه در میان درس ها و پایه های تحصیلی (دامنه خاص) یکسان به دست نیامد. در میان سه پایه اول تا سوم تحصیلی معنی «متمّم» و سه پایه چهارم تا ششم تحصیلی معنی «جزء کل» سرنمون شد. این یافته ها نشان داد که معنای سرنمون دروس فارسی و هدیه های آسمانی «مجاز» و دروس علوم و مطالعات اجتماعی «جزء کل» است.
۲.

تحلیلی بر پیکره حاصل از داده های زبانی فارسی در فضای مجازی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: نونویسی شکسته نویسی محاوره نویسی فضای مجازی دستور خط فارسی

حوزه های تخصصی:
تعداد بازدید : ۵۷ تعداد دانلود : ۵۵
امروزه وجود ابزارهای ارتباطی نوظهور سبب شده است که ارتباط میان گویشوران ازطریق نوشتن میسر شود. ماهیت الکترونیکی، جهانی و تعاملی این دسته از فناوری های نوظهور سبب تسهیل و افزایش سرعت در ارتباطات شده است. تعامل زبانی با به کارگیری این ابزارها و رابطه میان گفتار و نوشتار سبب می شود که گونه ای از نوشتار توسط کاربران یک زبان خلق شود، گونه ای که به نونویسی معروف است. هدف از انجام این پژوهش بررسی ویژگی های نونویسی در فارسی و طبقه بندی انواع آن براساس پیکره زبانی تهیه شده از داده های منتشرشده در شبکه های اجتماعی است. برای این هدف، داده های گردآوری شده در این پیکره براساس شیوه نگارش معیارشان، در سطوح آوایی، بن واژه ای و مقوله دستوری به صورت نیمه خودکار برچسب گذاری شده است. سپس واژه هایی که صورت نوشتاری شان متفاوت از صورت معیار است و دارای نوعی نونویسی است ازجنبه ویژگی های خط و همچنین ویژگی های زبانشناختی مورد بررسی قرار گرفت. نتایج حاصل از تحلیل این داده ها و برچسب هایشان نشان می دهد که نونویسی در فارسی در فضای مجازی در دو سطح نگارشی و آوایی-ساخت واژی اتفاق می افتد و واژه های محتوایی بیشترین میزان نونویسی واژه ها را متحمل می شود.
۳.

Contextualized Text Representation Using Latent Topics for Classifying Scientific Papers(مقاله علمی وزارت علوم)

کلیدواژه‌ها: Article Content Analysis Contextualized Representation Distributional Semantics Neural Network Scientific Article Classification topic modeling

حوزه های تخصصی:
تعداد بازدید : ۹۱ تعداد دانلود : ۴۶
Annually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05).
۴.

بررسی کمّی تغییر رفتار اجزای فعلی در فارسی نو(مقاله علمی وزارت علوم)

کلیدواژه‌ها: همکرد جزء فعلی فعل مرکب عبارات فعلی همکردشدگی ضریب تغییر قفل واژه

حوزه های تخصصی:
تعداد بازدید : ۸۰ تعداد دانلود : ۶۳
در زبان فارسی همکردهای فعل مرکب یا بخش فعلی موجود در عبارت های فعلی، خودشان فعل های قاموسی ساده ای بوده اند که معمولا در این نقش جدید در معنای اصلی به کار نمی روند. این پژوهش به دنبال مشخص کردن این است که چه افعالی در زبان فارسی نو این روند را طی کرده اند و کدام دسته از آنها حضوری باثبات تر و کدام دسته گرایشی قوی تر داشته اند تا در ساخت های فعلی جدید نیز به شکلی زایا در این نقش حضور یابند. برای مشخص شدن این موضوع از یک معیار کمّی آماری به نام «ضریب تغییر» استفاده شده است. با استفاده از این معیار، رتبه بندی جدیدی برای این نوع افعال ترتیب داده شد که بازنمودی عددی از تغییر رفتار آنها را نشان می دهد. نتایج نشان می دهد فعل «زدن» بیشترین تغییر رفتار را نشان می دهد و بسیار به مشارکت در ساخت های فعلی جدید تمایل نشان داده و فعل «داشتن» پایدارترین رفتار را داشته است .
۵.

کاربرد رویکرد شناختی فیلمور در تعیین قالب های معنایی افعال در زبان فارسی: مطالعه موردی فعل «شدن»(مقاله علمی وزارت علوم)

کلیدواژه‌ها: معناشناسی شناختی نظریه معناشناسی قالبی فیلمور فریم نت قالب معنایی چندمعنایی سرنمون

حوزه های تخصصی:
تعداد بازدید : ۵۴۵ تعداد دانلود : ۲۵۱
«نظریه قالبی فیلمور» (1982) بیان گر اصلی مهم در معناشناسی شناختی است که معتقد است معانی واژه ها درون نظامی از دانش درک می شوند که ریشه در تجربه اجتماعی و فرهنگی انسان دارد. در این نظریه «قالب های معنایی» نمایانگر بخش های یک رویداد هستند که برای اتصال گروهی از کلمات به مجموعه ای از معانی به کار می روند. از طرفی، در یک رویداد، افعال نقش مهمی در تفسیر معنا ایفا می کنند و در اکثر موقعیت های آن حضور دارند. هدف پژوهش حاضر بررسی موردی فعل «شدن» در چارچوب نظریه مذکور بوده است تا از طریق تحلیل پیکره بنیاد و توصیفی به شناسایی این فعل و تعیین حوزه ها و قالب های معنایی آن پرداخته شود. نتیجتاً، با استفاده از فرهنگ ها و پیکره های معاصر فارسی و نیز نگاشت با پایگاه فریم نت 14 قالب معنایی «شدن» شناسایی شد. همچنین، مفهوم «تغییر حالت دادن» به عنوان معنای اصلی این فعل تعیین و قالب اصلی آن ایجاد گردید.
۶.

ارزیابی ساختار هرم وارونه در پیکره بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: پیکره خبری ضریب همبستگی پیرسون معناشناسی توزیعی ورد2وک هرم وارونه خبر

حوزه های تخصصی:
تعداد بازدید : ۱۱۰ تعداد دانلود : ۸۲
گفتمان خبری گونه ای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری می پردازد. باتوجه به این که در قالب بندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونه خبر برای درجه بندی اهمیت بخش های گفتمانی خبر استفاده می شود. اگرچه رعایت ساختار هرم وارونه خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش می شود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاه های خبری فارسی پرداخته شود. برای رسیدن به هدف می توان از علم داده استفاده کرد. این بین رشته ای از جنبه علمی به تحلیل داده، یافتن مفاهیم ضمنی به دست آمده از تحلیل داده ها و استخراج دانش از داده ها می پردازد. در چارچوب علم داده به بررسی پیکره ای متون خبری فارسی پرداخته شده و وجود رابطه همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونه خبر مورد مطالعه قرار می گیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکره خبری نسبتاً بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری به دست آمده است. پس از پیش پردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک به دست آمده و براساس آن بردار هر خبر ساخته شده است. پس از بخش بندی محتوای هر خبر براساس هرم وارونه خبر به سه قسمت سرنخ (لید)، بدنه و ارائه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شده است. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. به طور متوسط، همبستگی میان عنوان و بدنه خبر بیش از همبستگی میان عنوان و توسعه سرنخ بود. این پژوهش می تواند به عنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبق بر هرم وارونه استفاده گردد.
۷.

کاربرد یادگیری ماشینی مبتنی بر شبکه عصبی برای دسته بندی مستندات علمی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: مستندات علمی علوم انسانی دسته بندی شبکه عصبی فضای برداری ParsBERT معناشناسی توزیعی

حوزه های تخصصی:
تعداد بازدید : ۴۰۴ تعداد دانلود : ۲۱۱
از دهه ۱۳۸۰ شمسی، نگارش و انتشار مقالات علمی در ایران شدت بسیار زیادی به خود گرفته و سبب شده است علاوه بر سازمان های دولتی مانند ایرانداک و سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، سامانه های برخط متعدد دیگری چون پرتال جامع علوم انسانی، نورمگز، مگ ایران، علم نت، سیویلیکا و غیره اقدام به مدیریت دانش و تهیه بایگانی های ساختارمند مستندات علمی کند. هرکدام از این بایگانی ها، امکاناتی را در اختیار کاربر قرار می دهد. یکی از این امکانات، قابلیت جستجو است و جستجوی دقیق می تواند بر کاربری این سامانه ها تأثیر به سزایی بگذارد. برای افزایش دقت جستجو نیاز است حوزه علمی مقالات مشخص شود. دسته بندی حجم زیاد منابع علمی در حوزه های مختلف بسیار زمانبر است که استفاده از روش های ماشینی به عنوان یک راه حل می تواند از این کار طاقت فرسا بکاهد. هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش های پیشینِ دسته بندی به طور عمده از الگوریتم های دسته بندی متداول برای متن ساده به کار رفته است، در این پژوهش تلاش می شود علاوه بر استفاده از این دسته بندها، از دسته بندهای مبتنی بر شبکه عصبی، مانند شبکه عصبی پیچشی[۱] و پرسپترون[۲]، به همراه بازنمایی معنایی مبتنی بر بافت، مانند ParsBERT، استفاده گردد و نتایج آن با سایر روش های متداول در ساخت بردار مستندات، مانند Word2Vec، مقایسه گردد. برای این هدف، از داده های پرتال علوم انسانی که دربرگیرنده مقالات متنوع علوم انسانی استفاده می کنیم. ویژگی این داده مشخص بودن حوزه تخصصی هر مقاله است. یکی از ویژگی های شبکه عصبی این است که برایندی از ویژگی های نهفته از داده در فضای برداریِ ساخته شده شکل می گیرد و برای آموزش مدل استفاده می گردد. براساس نتایج عملی، دسته بند پرسپترون مبتنی بر ParsBERT بالاترین کارایی ۷۴/۷۱ درصدی براساس امتیاز F میکرو و کارایی ۷۲/۵۵ درصدی براساس امتیاز F ماکرو را به دست آورده است. [۱] convolutional neural network [۲] perceptron neural network
۸.

بررسی حوزه مفهومی فعل «شنیدن» در زبان فارسی در چارچوب نظریه معناشناسی قالب و اتخاذ اصول شبکه فریم نت(مقاله علمی وزارت علوم)

کلیدواژه‌ها: افعال «شنیدن» و «گوش دادن» پیکره معناشناسی شناختی شبکه معنایی فریم نت نظریه معناشناسی قالبی

حوزه های تخصصی:
تعداد بازدید : ۱۷۴ تعداد دانلود : ۱۴۷
تمایزات واژگانی میان زبان ها، بیانگر تفاوت در فرهنگ های مرتبط با هر زبان است. واژه های چندمعنا در هر فرهنگ، می تواند نمودی از این قبیل تمایزات واژگانی در یک زبان باشد. در معناشناسی شناختی، رویکردهای مختلفی به پدیده چندمعنایی در زبان وجود دارد؛ نظریه معناشناسی قالبی یکی از این رویکردها در معناشناسی شناختی است که به مسئله چندمعنایی، از منظر قالب های معنایی نگریسته است. صورت تکامل یافته این نظریه، در شبکه معنایی فریم نت، تحقق پیدا کرده است. قالب های معنایی بسته هایی معنایی هستند و هرکدام از قالب ها از برخی مؤلفه های معنایی تشکیل شده اند. روابط معنایی در این شبکه، به صورت روابط میان قالبی ارائه شده است. در این مقاله، سعی بر آن است تا تحلیلی معنایی و پیکره بنیاد از چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی، بر مبنای اصول شبکه فریم نت در زبان انگلیسی، ارائه شود. براین اساس، دو کلیدواژه مذکور، در پیکره های موجود در پایگاه داده زبان فارسی، بررسی شدند و از میان مفاهیم موجود در جملات شاهد، هفت قالب معنایی «حس فعال»، «ادراک حسی»، «جستجو»، «آگاهی»، «فهمیدن»، «اطاعت» و «توجه» و سه رابطه میان قالبی «توارث» میان قالب والد «ادراک» و فرزند «حس فعال» و قالب والد «ادراک» و فرزند «ادراک حسی» و قالب والد «آگاهی» و فرزند «فهمیدن»، یک رابطه میان قالبی «کاربرد» میان قالب والد «توجه» و فرزند «حس فعال» و یک رابطه میان قالبی «بیشتر» میان قالب های «حس فعال» و «ادراک حسی» استخراج شد. نتایج تحلیل های انجام شده نشان می دهد که رویکرد حاضر به پدیده چندمعنایی، رویکردی کارآمد برای بررسی چندمعنایی افعال «شنیدن» و «گوش دادن» در زبان فارسی است.
۹.

بررسی تکوین مباحث مقالات فارسی زبان و زبان شناسی با کمک رایانه(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: تکوین پردازش زبان طبیعی مدل سازی موضوع زبان شناسی پیکره ای مقاله علمی تحلیل محتوایی

حوزه های تخصصی:
تعداد بازدید : ۴۱۴ تعداد دانلود : ۱۷۳
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد ۵، ۱۰ و ۱۵ موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.
۱۰.

تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ(مقاله علمی وزارت علوم)

کلیدواژه‌ها: زبان پهلوی زبان شناسی پیکره ای پایگاه داده نشانه گذاری داده

حوزه های تخصصی:
تعداد بازدید : ۴۳۷ تعداد دانلود : ۲۴۳
رویکرد نوین در مطالعات زبان شناختی یا یک پدیده زبانی بر اصل وجود مجموعه ای از داده های زبانی گردآوری شده نهادینه شده است؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شده است. این شیوه پژوهشی برای بررسی داده های زبانی تاریخی که جزء زبان های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به سزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکره زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایه اطلاعاتی، اعم از حرف نویسی متن پهلوی، آوانویسی واژه ها به همراه ترجمه فارسی آنها، تعیین مقوله دستوری دانه ریز واژه ها، بن واژه سازی واژه ها و تعیین هزوارش بودن آنها، تعریف شده است. برای مقوله دستوری دانه ریز واژه ها، مجموعه برچسب مقولات دستوری فارسی معاصر تهیه شده توسط بی جن خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه به نیازهای زبان پهلوی جرح و تعدیل شده است و از مجموعه جدید برای برچسب گذاری واژه های پهلوی استفاده شده است. پس از نشانه گذاری واژه ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می تواند بینش عمیق تری از محتوای متن منتقل نماید. ازاین رو، اطلاعات آماری از پیکره به دست آمده استخراج شده و توضیح داده می شود تا دورنمای کلی نسبت به منابع تشکیل دهنده این پیکره به دست آید.
۱۱.

نقد و بررسى کتاب دستور زبان فارسی براساس نظریه گروه های خودگردان در دستور وابستگی(مقاله علمی وزارت علوم)

نویسنده:
تعداد بازدید : ۵۰۱ تعداد دانلود : ۳۸۹
دستور وابستگی یکی از دستورهای صورتگرا است که براساس وابستگی بین عناصر واژگانی یک جمله بنا نهاده شده است. این وابستگی ها مبتنی بر ظرفیت واژگان است؛ بنابراین، بازنمایی معنایی واژه ها در چارچوب ظرفیت ستون فقرات این دستور است. مقاله حاضر براساس سه رأس مطالب، به بررسی و نقد کتاب «دستور زبان فارسی براساس نظریه گروه های خودگردان در دستور وابستگی» می پردازد. ابتدا مروری مختصر بر فصل های کتاب ارائه می گردد. سپس به تحلیل و ارزیابی اثر پرداخته شده و نقاط ضعف و قوت کتاب از زوایای مختلف بررسی می شود. در این بخش از نظر اصطلاح شناسی و بیان مفاهیم نکاتی مطرح می گردد. ازآنجاکه دستور وابستگی جزء دستورهای زایشی نیست مقایسه ای بین دستور وابستگی و ساخت سازه ای انجام شده است تا درک محتوا برای خواننده ای که پیش زمینه دستور زایشی دارد آسان گردد و از تشویش ذهن وی در مورد برخی مفاهیم پایه ای بکاهد. در انتها درمورد چگونگی توسعه دستور وابستگی در این کتاب، نکات و پیشنهاداتی ارائه می گردد.
۱۲.

درک ساخت های نحوی مختلف زبان فارسی در کودکان نارساخوان

کلیدواژه‌ها: نارساخوانی مهارت خواندن زبان فارسی درک نحوی

حوزه های تخصصی:
تعداد بازدید : ۶۲۸ تعداد دانلود : ۴۴۶
کسب مهارت خواندن، یکی از نیازهای بشری برای اطلاع از اندیشه دیگر افراد جامعه در ادوار مختلف است. الزاماً تمام افراد جامعه در خواندن توانایی یکسانی ندارند. درصدی از افراد جامعه دارای انواع ناتوانی های یادگیری هستند که اختلال خواندن از شایع ترین آن است. اهمیت خواندن و نوشتن و نیز درصد بالای کودکان نارساخوان، توجه محققان زیادی را برای پژوهش در این حوزه به خود جلب کرده  است. از آنجا که ساخت نحوی زبان های مختلف متفاوت است در این پژوهش درک ساخت های نحوی مختلف زبان فارسی در 16 کودک فارسی زبان نارساخوان و 32 کودک همتای سنی طبیعی در پایه دوم با استفاده از آزمون استاندارد درک نحوی بررسی شد. بر اساس نتایج این پژوهش توصیفی-تحلیلی، میانگین درک ساخت های نحوی در گروه نارساخوان به طور معناداری کمتر از گروه طبیعی بود. میان کودکان نارساخوان و کودکان طبیعی همتای سنی در ساخت های نحوی پیچیده تر همچون بندهای موصولی، مجهول، گروه های همپایه، گروه های اسمی دارای حروف اضافه و انواع صفت برتر، تفاوت معنادار وجود داشت. این یافته ها ضمن تأیید نقص نحوی در کودکان نارساخوان، نشان داد این احتمال وجود دارد بخشی از مشکلات کودکان نارساخوان در درک متن، مربوط به مشکلات آنها در درک ساختارهای نحوی زبان باشد؛ لذا لازم است توانایی نحوی کودکان نارساخوان ارزیابی و برنامه های درمانی لازم درباره آموزش ساخت های پیچیده نحوی تهیه شود.
۱۳.

تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: تعبیه معنایی واژه خوشه بندی یادگیری ماشین بی نظارت فضای برداری پردازش زبان طبیعی بازنمایی معنایی واژه زبان فارسی

حوزه های تخصصی:
تعداد بازدید : ۷۹۱ تعداد دانلود : ۵۱۶
واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.
۱۴.

تحلیل معنایی فعل «گفتن» در چارچوب نظریه معناشناسی قالبی: یک بررسی پیکره بنیاد(مقاله علمی وزارت علوم)

کلیدواژه‌ها: نظریه معناشناسی قالبی قالب معنایی فریم نت چندمعنایی مقوله شعاعی

حوزه های تخصصی:
تعداد بازدید : ۹۹۹ تعداد دانلود : ۶۲۳
یکی از دستاوردهای مهم زبان شناسی شناختی، «نظریه معنا شناسی قالبیِ» فیلمور (1982) است. این نظریه بیانگر اصلی مهم در معناشناسی شناختی است که بیان می کند معانی واژه ها درون نظامی از دانش درک می شوند که در تجربه اجتماعی و فرهنگی انسان ریشه دارد. درواقع، فیلمور در این نظریه درک معنای واژه ها را از طریق قالب هایی که هر واژه فرا می خواند، میسر می داند و « قالب های معنایی» را نمایانگر بخش های یک رویداد می داند که برای اتصال گروهی از کلمات به مجموعه ای از معا نی به کار می روند . از طرفی، افعا ل به عنوان مهم ترین ارکان زبان در بیشتر حالت ها و اعمال یک رویداد حضور دارند و در تفسیر معنا نقش بسزایی ایفا می کنند. هدف پژوهش حاضر، ارائه تحلیل پیکره بنیاد و توصیفی برای شناسایی حوزه ها و قالب های معنایی فعل «گفتن» در زبان فارسی و ترسیم قالب اصلی آن در چارچوب نظریه معناشناسی قالبی و طرح تحقیقاتی فرهنگ نگاری «فریم نت» است. برای نیل به این هدف، با بهره گیری از فرهنگ ها، پیکره های معاصر فارسی و سامانه فریم نت 44 حوزه و قالب معنایی از فعل «گفتن» در زبان فارسی شناسایی شد . سپس، مفهوم «بر زبان آوردن و بیان کردن» به عنوان معنای اصلی و سر نمون این فعل تعیین و «انگاره شعاعیِ» آن برای نخستین بار ترسیم گردید. در نهایت، قالب اصلی این فعل با استفاده از اصول و مفاهیم مطرح در نظریه قالبی فیلمور ایجاد شد.
۱۵.

ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: پردازش زبان طبیعی واحدسازی داده مدل سازی زبانی آماری زبان شناسی پیکره ای

حوزه های تخصصی:
تعداد بازدید : ۶۶۲ تعداد دانلود : ۳۴۰
متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان