مطالب مرتبط با کلیدواژه

یادگیری ماشین بی نظارت


۱.

تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: تعبیه معنایی واژه خوشه بندی یادگیری ماشین بی نظارت فضای برداری پردازش زبان طبیعی بازنمایی معنایی واژه زبان فارسی

حوزه های تخصصی:
تعداد بازدید : ۷۹۱ تعداد دانلود : ۵۱۵
واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.