مطالب مرتبط با کلیدواژه

هم نگاره


۱.

دسته بندی پیکره بنیاد هم نگاره های فارسی(مقاله علمی وزارت علوم)

تعداد بازدید : ۱۳۳ تعداد دانلود : ۹۴
ابهام، یکی از چالش های بزرگ در پردازش زبان طبیعی است؛ در پردازش رایانه ای متون، هم نگاره ها و چگونگی رفع ابهام از آن ها از اهمیت بالایی برخوردار است. در زبان های ی مانن د زب ان فارس ی که س اخت واژه پیچی ده ای دارن د، هم نگاره ه ای بس یاری س اخته می ش وند. در این راستا شناخت هم نگاره ها و دسته بندی انواع آن ها بسیار مهم است. در پژوهش حاضر به منظور بررسی پیکره-بنیاد هم نگاره های فارسی، واژه هایی که بیش از یک برچسب اجزای واژگانی کلام داشتند، از پیکره متنی فارسی استخراج شدند که شامل 10978 واژه است. سپس، فراوانی برچسب های هر هم نگاره مورد بررسی قرار گرفت و فهرست دیگری استخراج شد که شامل هم نگاره هایی است که علاوه بر فراوانی بالای برچسب اول آن ها (بیش از 20) فراوانی برچسب دوم آن ها نیز در پیکره متنی فارسی بیش از 10 بوده است؛ این فهرست شامل 1675 هم نگاره است. ماهیت ساخت واژی، آوایی یا معنایی هم نگاره های استخراج شده در این مرحله مورد بررسی قرار گرفت و بر اساس آن هم نگاره های استخراج شده در یازده دسته طبقه بندی شدند که از میان آن ها، تنها هم نگاره های موجود در یک دسته بر اساس معیار معنایی طبقه بندی شده اند و بقیه بر اساس ویژگی های ساخت واژی و تفاوت ها آوایی آن ها در دسته های گوناگون قرار گرفته اند. نتایج این پژوهش شامل فهرست گسترده ای از هم نگاره های فارسی استخراج شده از پیکره متنی فارسی است که هر کدام بر اساس معیارهای ساخت واژی و آوایی در یک یا بیش از یک دسته از مجموع یازده دسته قرار گرفته اند، این فهرست و دسته بندی مربوط به هم نگاره ها می تواند در سیستم های رفع ابهام معنایی از واژگان مورد استفاده قرار گیرد.