مطالب مرتبط با کلیدواژه

استخراج اطلاعات


۱.

ارائه رویکردی برای مدیریت و سازمان دهی اسناد متنی با استفاده از تجزیه وتحلیل هوشمند متن(مقاله علمی وزارت علوم)

کلیدواژه‌ها: داده کاوی مالکیت معنوی استخراج اطلاعات کاوش متن مدیریت متن

حوزه‌های تخصصی:
تعداد بازدید : ۸۶۵ تعداد دانلود : ۱۲۹۴
با توجه به حجم عظیم داده های جمع آوری شده در سازمان ها و سیستم های نگهداشت و مدیریت اطلاعات که سبب شکل گیری انبار داده های بسیار بزرگ شده، نیاز به استخراج الگو از متون هر روز بیشتر احساس می شود. متن کاوی یکی از مهم ترین روش ها در استخراج الگوی مناسب است که به وسیله اقتباس یا استخراج دانش از مجموعه ای از داده ها به اهداف سازمان ها بسیار کمک می کند. این روش ها همچنین می توانند افق جدیدی را برای تجارت و حفاظت از مالکیت معنوی آثار نویسندگان به وجود آورند. در این مقاله با رویکردی جدید به کشف الگوهای متنی جهت سازماندهی و تجزیه و تحلیل هوشمند متن می پردازیم. هدف اصلی، به کارگیری الگوی مناسب در جهت حفظ آثار نویسندگان، محققان و اسناد متنی است. با توجه به حجم آثار نویسندگان و سیستم های مدیریت اسناد، حجم اطلاعات در دسترس نیز به شدت افزایش یافته است. برای کشف دانش موجود در این داده ها، که منفعت زیادی را برای کاربران اطلاعات به دنبال دارد، روش های خاصی مورد نیاز است که در حوزه داده کاوی به آن پرداخته شده است. بخش اعظم این داده های در دسترس به صورت متنی و بدون ساختار یا نیمه ساختارمند هستند که برای استفاده از آن ها می توان علاوه بر روش های مورد استفاده در داده کاوی، از فناوری هایی مانند پردازش زبان طبیعی، تجزیه و تحلیل هوشمند و علم آمار بهره گرفت.
۲.

استخراج هوشمند مرز فراداده و متن در پایان نامه های فارسی با رویکرد BA_SVM(مقاله علمی وزارت علوم)

کلیدواژه‌ها: استخراج فراداده استخراج اطلاعات ماشین بردار پشتیبان الگوریتم فرامکاشفهای الگوریتم خفاش

حوزه‌های تخصصی:
تعداد بازدید : ۲۳۶ تعداد دانلود : ۳۷۶
استخراج فراداده باعث تسهیل در فرایند نمایه سازی و بهبود در بازیابی اطلاعات است. از سوی دیگر، خودکارسازی این فرایند سبب افزایش کارایی نسبت به استخراج دستی فراداده هاست. نام دانشجو، نام اساتید، عنوان، رشته و مقطع تحصیلی، چکیده، و کلمات کلیدی نمونه ای از فراداده های پایان نامه است. هدف در این مقاله شناسایی خودکار مرز فراداده و بدنه اصلی در پایان نامه های فارسی است. بدین منظور، 250 پایان نامه ثبت شده در سامانه «ایرانداک» جمع آوری شده است. ویژگی های مد نظر از هر پاراگراف استخراج شده و سپس، پاراگراف های پایان نامه با روش ماشین بردار پشتیبان به دو کلاس فراداده و بدنه طبقه بندی شد. در این پژوهش برای تنظیم پارامترهای الگوریتم ماشین بردار پشتیبان، الگوریتم فرامکاشفه ای خفاش به کار گرفته شده است. نتایج نشان می دهد که روش پیشنهادی با دقت 6/96 درصد نوع پاراگراف را تشخیص می دهد.