استخراج هوشمند مرز فراداده و متن در پایان نامه های فارسی با رویکرد BA_SVM(مقاله علمی وزارت علوم)
حوزه های تخصصی:
استخراج فراداده باعث تسهیل در فرایند نمایه سازی و بهبود در بازیابی اطلاعات است. از سوی دیگر، خودکارسازی این فرایند سبب افزایش کارایی نسبت به استخراج دستی فراداده هاست. نام دانشجو، نام اساتید، عنوان، رشته و مقطع تحصیلی، چکیده، و کلمات کلیدی نمونه ای از فراداده های پایان نامه است. هدف در این مقاله شناسایی خودکار مرز فراداده و بدنه اصلی در پایان نامه های فارسی است. بدین منظور، 250 پایان نامه ثبت شده در سامانه «ایرانداک» جمع آوری شده است. ویژگی های مد نظر از هر پاراگراف استخراج شده و سپس، پاراگراف های پایان نامه با روش ماشین بردار پشتیبان به دو کلاس فراداده و بدنه طبقه بندی شد. در این پژوهش برای تنظیم پارامترهای الگوریتم ماشین بردار پشتیبان، الگوریتم فرامکاشفه ای خفاش به کار گرفته شده است. نتایج نشان می دهد که روش پیشنهادی با دقت 6/96 درصد نوع پاراگراف را تشخیص می دهد.