طبقه بندی انواع دادگان مورد نیاز و روش های خطایابی و استانداردسازی متنی(مقاله علمی وزارت علوم)
حوزه های تخصصی:
یکی از پایه ای ترین مراحل پردازش خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه هاست. بدون گذر از این مرحله، ذخیره سازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آن ها می گردد. بدین ترتیب، متخصصان حوزه های پردازش زبان طبیعی و زبان شناسی رایانشی همواره در تلاش ظهستند تا با ارائه روش ها و الگوریتم های مطلوب انواع داده ها را در بوته پردازش قرار داده و به داده ای استاندارد دست یابند. در زبان انگلیسی و برخی زبان های دیگر، تحقیقات متعددی در این زمینه انجام شده و به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقه بندی انواع روش ها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آن ها را به طور خاص و نحوه سنجش میزان دقت پردازش آن ها را به طور عام شرح می دهد. در این مقاله همچنین، نحوه عملکرد سامانه های تک زبانه فارسی توصیف شده و به نحوه برخورد آن ها با چالش های زبان فارسی اشاره می گردد.