محمد عشرت آبادی

۱.

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

نویسنده: آزاده فخرزاده امیرحسین صدیقی محمد عشرت آبادی البرز اسفندیاری

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۴۰ تابستان ۱۴۰۴ شماره ۴ (پیاپی ۱۲۴) 1283 - 1305

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۹۱ تعداد دانلود : ۱۱۱

تشخیص خودکار متن فارسی به دلیل ویژگی های یکتای خط فارسی از جمله ساختار پیوسته، اشتراک بالای ویژگی های بصری بین حروف، و تنوع بالای نوشتاری حروف با توجه به موقعیت آنان در کلمه همواره چالش برانگیز بوده است. هدف این پژوهش ارائه یک مدل نویسه خوانی نوری است که بتواند اسناد چاپی و علمی فارسی را که شامل پایان نامه ها، مقالات و کتب فارسی است، به متن قابل ویرایش تبدیل کند. این امر برای برچسب گذاری، فهرست بندی و بازیابی اطلاعات در پایگاه داده ها یک ضرورت محسوب می شود. این مقاله رویکردی ترکیبی مبتنی بر معماری های یادگیری عمیق برای تشخیص متن فارسی ارائه می دهد. در این روش از شبکه های عصبی پیچشی برای استخراج ویژگی ها و از شبکه های عصبی بازگشتی برای تشخیص کلمات استفاده می شود. مزیت اصلی این مدل، توانایی آن در تشخیص مستقیم متن چاپی فارسی بدون نیاز به پیش پردازش های پیچیده مانند ناحیه بندی حروف است. مدل پیشنهادی با استفاده از یک مجموعه داده اختصاصی و بزرگ، شامل بیش از دو میلیون نمونه که با پنج فونت متداول فارسی تولید شده ، آموزش داده شده است. مدل معرفی شده دقت 81 درصد در تشخیص حروف فارسی و 60 درصد در تشخیص کلمات دارد. عمده ترین خطاها در کلمات مرتبط با نیم فاصله و علائم بود.

محمد عشرت آبادی

مطالب
ترتیب بر اساس: جدیدترین پربازدیدترین

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

محمد عشرت آبادی

مطالب ترتیب بر اساس: جدیدترینپربازدیدترین

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

مطالب
ترتیب بر اساس: جدیدترین پربازدیدترین