آرشیو

آرشیو شماره ها:
۱۱۷

چکیده

در سال های اخیر، کاربرد گونه نوشتاری غیررسمی زبان فارسی به دلیل گسترش روزافزون فضای مجازی و شبکه های اجتماعی و تمایل کاربران به نزدیک کردن زبان نوشتار به گفتار رشد چشمگیری داشته است. با وجود این، ابزارهای پردازش این گونه زبانی به میزان لازم توسعه داده نشده است. تحلیلگرهای تصریفی از جمله ابزارهایی است که در پردازش زبانی کاربرد وسیعی دارد و تاکنون برای گونه غیررسمی طراحی و پیاده سازی نشده است. با توجه به این که گونه نوشتاری غیررسمی در کنار واژگان و قواعد صرفی و نحوی مختص به خود، در بخشی از واژه ها و ساختارها با گونه رسمی مشترک است، در این پژوهش با پوشش فارسی رسمی و غیررسمی اولین ابزار تحلیل تصریفی فارسی معاصر برای همه اقسام واژه توسعه داده شده و تلاش شده همه ساختارهای تصریفی واژه های فارسی غیررسمی پوشش داده شود. این ابزار به صورت قاعده مند و مستقل از بافت و با بهره گیری از مبدل حالت محدود، پی بست ها و وندهای تصریفی رسمی و غیر رسمی را در واژه های زبان شناسایی و تحلیل کرده، ستاک های رسمی و غیررسمی را نیز استخراج می کند. به منظور پوشش دادن تمام ساخت ها و حالت های تصریفی، با توجه به رویکرد مستقل از بافت، الگوریتم برای هر واژه، تمام خوانش ها و معانی گوناگونی را که می تواند بسته به قرارگیری در بافت های گوناگون داشته باشد، تحلیل و ارائه می کند. به منظور استخراج و بررسی واژگان و قواعد تصریفی و نگارشی گونه غیر رسمی، پیکره فارسی معاصر از سیاق ها و زیرسیاق های گوناگون این گونه زبانی تهیه شده و در طراحی و آزمون تحلیلگر مورد استفاده قرار گرفت. آزمون تحلیلگر با استفاده از 1786 واژه یکتای استخراج شده از پیکره، نتیجه 67/96 درصد را در معیار اف به دست داده است. از این ابزار می توان در انواع تحلیل ها و کاربردهای پردازش رایانه ای زبان فارسی و همچنین در آموزش فارسی، به ویژه محاوره فارسی به غیر فارسی زبانان استفاده کرد.

تبلیغات