امیر تن سازان

۱.

استخراج فراداده های متنی از مقاله های علمی به زبان فارسی با مدل آماری CRF(مقاله علمی وزارت علوم)

نویسنده: امیر تن سازان محمدامین مهدوی

منبع: پژوهشنامه کتابداری و اطلاع رسانی سال هفتم بهار و تابستان ۱۳۹۶ شماره ۱ (پیاپی ۱۳)

کلید واژه ها: استخراج فراداده های متنی مقاله های علمی پردازش زبان فارسی الگوریتم CRF

حوزه های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۹۰۸ تعداد دانلود : ۲۸۰

مقدمه: استخراج فراداده های متنی از مقاله های علمی به شکل دستی کار زمان بر و پرهزینه ای است. وجود تنوع در قالب های ساختاری مقالات علمی نیز به پیچیدگی مسئله می افزاید. بنابراین، استخراج خودکار فراداده های متنی از مقاله های علمی به عنوان یک مسئله مطرح است و از الگوریتم های مختلفی می توان برای استخراج فراداده ها استفاده کرد. هدف این مقاله ارائه ی یک چارچوب برای استخراج فراداده های متنی از مقاله های علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فراداده ها استفاده شده است. روش شناسی: این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانه ای و آزمایش سعی شده است یک چارچوب برای استخراج فراداده ها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اِف برای استخراج فراداده ها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگی های مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی- پژوهشی ایران درصد موفقیت آن را نشان می دهد. مدل آماری سی آر اِف در برچسب زنی متن نسبت به مدل های آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه می دهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسب زنی را انجام می دهد. استخراج فراداده ها از مقالات با قالب های مختلف به کمک آمار نسبت به روش های مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اِف برای حل این مسئله مناسب است. یافته ها: برای ارزیابی روش پیشنهاد شده از معیار اِف استفاده شده است. مقدار معیار اِف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اِف به شکل میانگین برای فراداده های سرآیند، فراداده های مراجع فارسی و فراداده های مراجع انگلیسی به ترتیب ۸۹/۹۶ درصد، ۸۷/۹۳ درصد و ۷۵/۹۴ درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج به دست آمده نشان می دهد در فراداده های سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهش های زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش زبان فارسی، نتایج بهتری به دست آمده است. مقایسه میانگین نتایج استخراج فراداده های مراجع، نشان می دهد پژوهش های زبان انگلیسی دقت بالاتری ارائه داده اند. نتایج استخراج فراداده مؤسسه در مراجع فارسی نسبت به فراداده های دیگر ضعیف تر است. بحث و نتیجه گیری: بررسی نتایج بدست آمده نشان می دهد که عملکرد مدل آماری سی آر اِف برای استخراج فراداده ها خوب است. بیشترین دقت برای فراداده چکیده با معیار اِف برابر ۶/۹۹ درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فراداده ها دارد. دقت فراداده مؤسسه با معیار اِف برابر ۹۵/۸۰ درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فراداده های دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده به کار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فراداده های مکان و مؤسسه به کار می رود. این مسئله باعث می شود در برخی از موارد فراداده های مکان و مؤسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فراداده های مختلف به کار می روند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد به کار می رود با معانی دیگر در فراداده های دیگر استفاده می شود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای به وجود آمده در استخراج فراداده ها مربوط به توکن هایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اِف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیت های این پژوهش به شمار می آید. در این پژوهش مجموعه ای از صد مقاله علمی استفاده شد. افزایش تعداد مقاله های علمی و تنوع بیشتر مقالات برای آزمایش می تواند در نتیجه ی بدست آمده تاثیر مثبتی داشته باشد. مجموعه ای از ویژگی های متنی در الگوریتم های برچسب زنی سی آر اِف استفاده می شود. تغییر در این ویژگی ها می تواند موجب بهینه سازی روش شود.

امیر تن سازان

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین

استخراج فراداده های متنی از مقاله های علمی به زبان فارسی با مدل آماری CRF(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

امیر تن سازان

مطالب ترتیب بر اساس: جدیدترینپربازدید‌ترین

استخراج فراداده های متنی از مقاله های علمی به زبان فارسی با مدل آماری CRF(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

مطالب
ترتیب بر اساس: جدیدترین پربازدید‌ترین