الهام علایی ابوذر

الهام علایی ابوذر

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۶ مورد از کل ۶ مورد.
۱.

دسته بندی پیکره بنیاد هم نگاره های فارسی(مقاله علمی وزارت علوم)

تعداد بازدید : 699 تعداد دانلود : 552
ابهام، یکی از چالش های بزرگ در پردازش زبان طبیعی است؛ در پردازش رایانه ای متون، هم نگاره ها و چگونگی رفع ابهام از آن ها از اهمیت بالایی برخوردار است. در زبان های ی مانن د زب ان فارس ی که س اخت واژه پیچی ده ای دارن د، هم نگاره ه ای بس یاری س اخته می ش وند. در این راستا شناخت هم نگاره ها و دسته بندی انواع آن ها بسیار مهم است. در پژوهش حاضر به منظور بررسی پیکره-بنیاد هم نگاره های فارسی، واژه هایی که بیش از یک برچسب اجزای واژگانی کلام داشتند، از پیکره متنی فارسی استخراج شدند که شامل 10978 واژه است. سپس، فراوانی برچسب های هر هم نگاره مورد بررسی قرار گرفت و فهرست دیگری استخراج شد که شامل هم نگاره هایی است که علاوه بر فراوانی بالای برچسب اول آن ها (بیش از 20) فراوانی برچسب دوم آن ها نیز در پیکره متنی فارسی بیش از 10 بوده است؛ این فهرست شامل 1675 هم نگاره است. ماهیت ساخت واژی، آوایی یا معنایی هم نگاره های استخراج شده در این مرحله مورد بررسی قرار گرفت و بر اساس آن هم نگاره های استخراج شده در یازده دسته طبقه بندی شدند که از میان آن ها، تنها هم نگاره های موجود در یک دسته بر اساس معیار معنایی طبقه بندی شده اند و بقیه بر اساس ویژگی های ساخت واژی و تفاوت ها آوایی آن ها در دسته های گوناگون قرار گرفته اند. نتایج این پژوهش شامل فهرست گسترده ای از هم نگاره های فارسی استخراج شده از پیکره متنی فارسی است که هر کدام بر اساس معیارهای ساخت واژی و آوایی در یک یا بیش از یک دسته از مجموع یازده دسته قرار گرفته اند، این فهرست و دسته بندی مربوط به هم نگاره ها می تواند در سیستم های رفع ابهام معنایی از واژگان مورد استفاده قرار گیرد.
۲.

نقشهٔ مفهومی اصطلاح نامهٔ زبان شناسی(مقاله علمی وزارت علوم)

کلید واژه ها: اصطلاح نامه نقشه مفهومی آواشناسی واج شناسی صرف نحو معنی شناسی

حوزه های تخصصی:
تعداد بازدید : 807 تعداد دانلود : 521
اصطلاح نامه دوزبانه فارسی- انگلیسیِ زبان شناسی تاکنون تدوین نشده است. اصطلاح نامه زبان شناسی در سازماندهی و نمایه سازی اطلاعات مدارک علمی، استاندارد سازیِ واژگان، جستجو و بازیابی اطلاعات در پایگاه های اطلاعات زبان شناسی و پژوهش های مرتبط با زبان شناسی و زبان شناسیِ رایانشی کاربرد دارد. مهم ترین چالش در تولید و تدوین اصطلاح نامه زبان شناسیِ دوزبانه فارسی- انگلیسی، طراحی نقشه مفهومیِ علمِ زبان شناسی است. یافتن معادل های مناسب در زبان فارسی برای اصطلاحات انگلیسی و نیز وجود دیدگاه ها و مکاتب گوناگون در حوزه این علم از دشواری های این پژوهش است. حضور متخصصان زبان شناس فارسی زبان در گرایش های مختلف زبان شناسی و وجود منابع متعدد انگلیسی و فارسی در حوزه علم زبان شناسی، همچنین برخورداری از دانش و تجربه طراحی نقشه های مفهومی و تدوین اصطلاح نامه برمبنای آن در پژوهشگاه ایرانداک، فرصت مغتنمی بود تا نقشه مفهومیِ علمِ زبان شناسی در سطحی عمومی طراحی و تدوین شود. این نقشه با استفاده از اصطلاحات انگلیسی و فارسیِ تخصصی در حوزه زبان شناسی و با توجه به تقسیم بندی های علم زبان شناسی طراحی شد تا در پروژه ای دیگر برمبنای آن، اصطلاح نامه زبان شناسی دوزبانه فارسی- انگلیسی تدوین شود.
۳.

شاخص ها و مراحل ساخت پیکره زبانی: گونه نوشتاری و گفتاری(مقاله علمی وزارت علوم)

کلید واژه ها: پیکره شاخص های کلیدی ساخت پیکره فرآیند ساخت پیکره گونه نوشتاری گونه گفتاری

حوزه های تخصصی:
تعداد بازدید : 190 تعداد دانلود : 696
این پژوهش تلاش دارد با جمع آوری اطلاعات مربوط به شاخص ها و مراحل ساخت پیکره زبانی، به پژوهشگران در زمینه ساخت انواع پیکره های زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکره هایی در زبان های مختلف کرده اند، به شاخص های کلی ساخت پیکره های زبانی پرداخته می شود. این شاخص ها مربوط به ساخت گونه های متنی و گفتاری پیکره است که نمونه گیری، نمایندگی، توازن، اندازه، نوع پیکره و  یک دستی را شامل می شوند. سپس، فرآیند ساخت پیکره متنی ارائه می شود که انتخاب متون، پیش پردازش متون و حاشیه نویسی را در بر می گیرد و در این راستا به تفصیل درباره هر یک از مراحل توضیح داده می شود. در پایان، فرآیند ساخت پیکره گفتاری بیان می شود که جمع آوری داده ها، آوانویسی، نمایش و حاشیه نویسی و دسترسی را در بر می گیرد. درباره هر یک از مراحل مذکور نیز به تفصیل توضیح داده می شود.
۴.

معرفی رویکردی ماشینی با استفاده از الگوریتم لسک و برچسبدهی نحوی جهت رفع ابهام از معنای کلمات(مقاله علمی وزارت علوم)

کلید واژه ها: رفع ابهام از معنای کلمات همنگاره برچسبدهی نحوی الگوریتم لسک رفع ابهام از برچسب نحوی کلمات

حوزه های تخصصی:
تعداد بازدید : 552 تعداد دانلود : 616
پژوهش حاضر به معرفی رویکردی ماشینی برای چگونگی رفع ابهام معنایی از کلمات می پردازد. در زبان فارسی، که ساخت واژه پیچیده ای دارد، هم نگاره های بسیاری ساخته می شوند که معانی گوناگونی در بافت های گوناگون دارند. یکی از راه هایی که کمک می کند رفع ابهام از معنای کلمات مبهم (هم نگاره ها) با سهولت و دقت بیشتری انجام شود، تخصیص برچسب درست نحوی به کلمات است. بنابراین، اگر برچسب دهی نحوی قبل از مرحله رفع ابهام معنایی از کلمات صورت پذیرد، رفع ابهام معنایی از هم نگاره ها با دقت بیشتری انجام خواهد گرفت. از آنجا که فراوانی هم نگاره های اسمی و صفتی در متون فارسی، در مقایسه با سایر هم نگاره ها بالاست، پس از تخصیص برچسب نحوی به کلمات لازم است رفع ابهام از برچسب نحوی هم نگاره ها نیز صورت گیرد. در این مقاله ابتدا روش های ماشینی موجود در جهت رفع ابهام از معنای کلمات معرفی می شود و سپس، الگوریتم «لسک» (که یکی از روش های یادگیری ماشینی بدون نظارت/ بدون سرپرست برای رفع ابهام معنایی از کلمات مبهم موجود در متون گوناگون است) معرفی می شود و در نهایت، رویکردی ماشینی جهت رفع ابهام از معنای کلمات با استفاده از نتیجه مرحله برچسب زنی نحوی به کلمات و رفع ابهام از برچسب نحوی کلمات و الگوریتم «لسک» معرفی می شود. انجام برچسب دهی نحوی و رفع ابهام از برچسب نحوی هم نگاره ها باعث می شود که الگوریتم «لسک» تنها، معانی مرتبط با برچسب های نحوی را در رفع ابهام معنایی از کلمات در نظر گیرد و در نتیجه، عمل رفع ابهام از معنای کلمات با دقت و سهولت بیشتری انجام پذیرد.
۵.

بررسی پیکره-بنیاد هم نگاره های اسمی و صفتی فارسی جهت کمک به برچسب گذاری صحیح اجزای کلام(مقاله علمی وزارت علوم)

کلید واژه ها: سامانه برچسب گذاری اجزای کلام ساخت واژه اسم ها و صفت های فارسی نظام نوشتاری فارسی هم نگاره ها

حوزه های تخصصی:
تعداد بازدید : 878 تعداد دانلود : 595
در تهیه سامانه های برچسب گذاری اجزای کلام در زبان فارسی، بررسی ساخت واژی اسم ها و صفت ها از دو نظر حائز اهمیت است: 1- اگر کلمه ای قبلاً در پیکره آموزشی ظاهر نشده باشد، نمی توان از پیکره آموزشی اطلاعات دقیقی راجع به آن کلمه به دست آورد . بنابراین، اگر در یک پیکره متنی فارسی، کلمه ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی توان برچسب های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می شوند) یا بافتی که کلمه در آن ظاهر می شود، یا هر دو، حدس زد. 2- زبان فارسی ظرفیت بالایی برای ساخت هم نگاره های جدید که از ساخت واژه فارسی نشأت می گیرند، را نیز دارد بنابراین، بررسی ساخت واژی اسم ها و صفت ها، به منظور تفکیک آن ها از هم ضروری به نظر می رسد، زیرا اکثر صفت ها در بافت های گوناگون، با صورت نوشتاری یکسان، می توانند برچسب «اسم» بگیرند. در تحقیق حاضرساخت واژه اسم ها و صفت ها در فارسی بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی قرار گرفته است تا از این رهگذر بتوان به شناسایی انواع هم نگاره ها در زبان فارسی پرداخت. سپس، انواع هم نگاره ها در زبان فارسی مورد مطالعه قرار گرفته است و در نهایت از طریق جستجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم نگاره ها از پیکره های "پیکره متنی زبان فارسی"، "پایگاه دادگان زبان فارسی" و "پیکره وابستگی نحوی زبان فارسی" تهیه شده است. بررسی کلی هم نگاره ها در پیکره های مورد مطالعه نشان می دهد که بیشتر هم نگاره ها، فراوانی بالایی در پیکره های متنی فارسی دارند و اکثر آن ها در اثر یکسان بودن نمود نوشتاری تکواژ یاء نکره، یاء اسم ساز، شناسه دوم شخص مفرد، یاء صفت ساز و یاء متصل به گروه اسمی، ایجاد شده اند.
۶.

معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی(مقاله علمی وزارت علوم)

کلید واژه ها: کلمات خارج از واژگان قواعد واژواجی الگوهای ساختواژی عربی مدل ساختاری - احتمالاتی

حوزه های تخصصی:
تعداد بازدید : 122 تعداد دانلود : 742
در نظام های نوشتاری، رابطه یک- به -یک میان واج ها و نگاره ها همواره برقرار نیست. از آنجایی که در نظام نوشتاری فارسی واکه های کوتاه اغلب فاقد صورت نوشتاری هستند، تعداد حالت های ممکن خواندن کلمات خارج از واژگان افزایش می یابد و به این ترتیب عمق خط فارسی زیاد در نظر گرفته می شود. اما علیرغم وجود چنین ویژگی هایی در خط فارسی، فارسی زبانان هنگام خواندن کلمات فارسی موجود در واژگان ذهنی خود و کلماتی که برای اولین بار با آن ها در متون گوناگون مواجه می شوند، قادرند رشته حروف را تبدیل به واج کنند. این پژوهش نشان می دهد فارسی زبانان با استفاده از روشی ساختاری-احتمالاتی، هنگام خواندن، رشته حروف را به رشته واج ها تبدیل می کنند. منظور از بخش ساختاری روش، استفاده فارسی زبانان از اطلاعات زبانی از قبیل: ساختواژه فارسی، قواعد واژ واجی فارسی و آشنایی با صورت نوشتاری و تلفظ کلماتی است که با الگوهای ساختواژی عربی مطابقت دارند. منظور از بخش احتمالاتی، در نظر گرفتن احتمال وقوع واکه های کوتاه با توجه به بافت نوشتاری است که این واقعیت می تواند فارغ از اطلاعات زبانی فارسی زبانان صورت پذیرد. در تحقیق حاضر مدلی ساختاری-احتمالاتی معرفی و عملکرد آن با نرم افزارهای تبدیل حرف به واج فارسی مقایسه شده است. به طور کلی این نتیجه به دست آمد که عملکرد مدل ساختاری-احتمالاتی پژوهش برای ارائه برونداد واجی کلمات خارج از واژگان، در مقایسه با نرم افزارهای تبدیل حرف به واج فارسی بهتر و به تلفظ فارسی زبانان نزدیک تر است.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان