آرشیو

آرشیو شماره ها:
۱۱۷

چکیده

سازماندهی و بازیابی دانش منتشر شده در محیط وب بعنوان یکی از مهمترین کاربردهای متن کاوی مطرح شده است. از جمله چالش های سازماندهی مجموعه عظیمی از متون در قالب یک پیکره متنی، ابعاد زیاد ویژگی ها و خلوت بودن ماتریس ویژگی ها است. نحوه ی انتخاب ویژگی ها و نحوه ی کاهش ویژگی ها در این مسئله تاثیر بسزایی در بالاتر رفتن دقت سازماندهی و بازیابی متون دارد. در بسیاری از پژوهش ها به بررسی منفک این دو چالش پرداخته شده است. این پژوهش با رویکرد توجه همزمان به این دو چالش شرح یافته است. پس از تعیین متون مرتبط با 20 گروه خبری وبی و پس از فاز پیش پردازش متون با استفاده از الگوریتم الگو سازی عنوان [1] ال دی ای [2] ، کیسه ای (تجمیعی) از مفاهیم معنایی برای پیکره ی متنی مورد نظر ساخته شد. به منظور بررسی میزان تاثیر واژه های پیکره متون در هر مفهوم پنهان، به بررسی نحوه ی وزن دهی واژگان یک پیکره، در مفاهیم استخراج شده توسط الگوریتم ال دی ای پرداخته شد. از این رو، برای هر متن یک توزیع احتمال رخداد حول هر عنوان استخراج گردید که برای سازماندهی و بازیابی دانش موجود در آن مورد استفاده قرار گرفت. برای سازماندهی آن از الگوریتم نزدیکترین K همسایه با معیار شباهت واگرای کولبک لیبلر که میزان فاصله دو توزیع احتمال را می سنجد؛ استفاده شد. نتایج آزمون ها نشان داد که میزان صحت سازماندهی روش پیشنهادی در صورتی که از معیار وزن دهی واکشی اطلاعات متقابل نقطه ای و الگوریتم KL-KNN استفاده شده باشد 5/82% است. نتایج تحلیل ها نشان داد که این روش دارای دقت مشابهی با روش هایی است که از فنون یادگیری عمیق استفاده می نمایند. افزون بر این، روش بکارگرفته در این پژوهش نشان دهنده پیچیدگی کمتری در فرایند سازماندهی و بازیابی متون مورد مطالعه پژوهش بود. 4. Topic modeling 5. Latent Dirichlet Allocation

تبلیغات