تشخیص خودکار صفحات فهرست با توجه به الگوی آنها در پایاننامههای فارسی و لاتین
حوزه های تخصصی:
صفحات فهرست در هر نوع مدرک (کتاب، مجله، پایاننامه، ...)، به نحو مختصر و فشرده، ساختار منطقی آن مدرک را بیان میکنند و به کمک آنها میتوان به راحتی ساختار مدرک را مشاهده نمود و مستقیماً به مطالب مورد نظر دست یافت. در این مقاله برای اولین بار روشی به منظور شناسایی خودکار صفحات فهرست در پایاننامههای فارسی، عربی و لاتین ارائه میشود. در این روش، شناسایی صفحات فهرست با توجه به الگوی آنها بدون استفاده از عملیات بازشناسی متن (اُسیآر) و تنها با بهکارگیری فنون پردازش تصویر، مد نظر بوده. با این روش میتوان صفحات فهرست را صرف نظر از نوع زبان و ترازبندی (راست به چپ یا چپ به راست بودن) متن آنها، شناسایی کرد و به دلیل عدم استفاده از اُسیآر، تابع کیفیت متن مدرک اسکنشده نیست. روش مذکور بر روی دستهای از پایاننامههای فارسی، عربی و لاتین موجود در پایگاه اطلاعاتی پژوهشگاه اطلاعات و مدارک علمی ایران مورد آزمایش قرار گرفت و دقت 7/99 درصد در بازشناسی صحیح حاصل گردید.