سیستم شناسایی و طبقه بندی موجودیت های اسمی در متون زبان فارسی بر پایه شبکه عصبی(مقاله علمی وزارت علوم)
حوزه های تخصصی:
شناسایی موجودیت های اسمی به عنوان یک وظیفه پایه ای در حوزه پردازش زبان طبیعی و به طور کلی زیر مجموعه ای از استخراج اطلاعات است. در فرآیند شناسایی موجودیت های اسمی به دنبال مکان یابی عناصر اسمی در متن و دسته بندی آن ها به رده هایی از پیش تعیین شده از قبیل اسامی اشخاص، سازمان ها، مکان ها، عبارت های زمانی، و غیره هستیم. هرچند پژوهش هایی گسترده در توسعه سیستم های شناسایی موجودیت های اسمی در حوزه زبان انگلیسی درطی سال های پیشین انجام گرفته است، متاسفانه با توجه به مشکلات موجود، مانند نبود پیکره های متنی نشانه گذاری شده استاندارد در زبان فارسی، پژوهش های بسیار محدودی در زبان فارسی وجود دارد. در این مقاله با بررسی پژوهش های انجام گرفته در دیگر زبان ها و با بهره گیری از روش های تازه در این حوزه همانند استفاده از نمایش بردارهای عددی برای کلمات، به توسعه سیستمی برای شناسایی موجودیت های اسمی بر پایه شبکه عصبی پرداخته شده است. نتایج بدست آمده از مدل پیشنهادی نشان دهنده این واقعیت است که استفاده از مدل های نمایش بردارهای عددی برای کلمات در زبان فارسی، افزون بر مرتفع کردن مشکل انتخاب ویژگی ها، می تواند به توسعه سیستمی کارآمد منجر شود که کم ترین وابستگی را نیز به دامنه دارد.