روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

درجه علمی در دسته‌بندی سابق وزارت علوم: علمی-پژوهشی

نویسندگان: مریم شعار علی اصغر سالارنژاد

منبع: مطالعات مدیریت فناوری اطلاعات سال ششم تابستان 1397 شماره 24

کلید واژه ها: افزونگی اطلاعات خوشه بندی اسناد Html داده کاوی سیستم های استخراج اطلاعات کلاس بندی.

حوزه های تخصصی:

حوزه‌های تخصصی مدیریت مدیریت دانش و IT

doi: 10.22054/ims.2018.8891

شماره صفحات: ۳۷ - ۶۲

دریافت مقاله تعداد دانلود : ۴۳۴

آرشیو

چکیده

با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستم های خودکار استخراج اطلاعات بیشتر شده است. از مهم ترین روش های خودکار استخراج اطلاعات، خوشه بندی می باشد. روش های خوشه بندی زیادی تابه حال ارائه شده است که اکثراً مبتنی بر مدل برداری می باشند. در این مدل با هر سند مانند مجموعه ای از کلمات برخورد می گردد و توالی کلمات در جمله، نادیده گرفته می شود. ازآنجایی که معانی در زبان طبیعی به طور کامل وابسته به توالی کلمات می باشند نقیصه بزرگی در این روش ها احساس می گردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشه بندی اسناد Html ارائه گردیده است که در آن الگوریتم Stc برای خوشه بندی Snippet ها لحاظ شده است. این روش که با عنوان خوشه بندی بر اساس جملات کلیدی Ks_Stc مطرح شده برای هر سند بردار وزن داری تهیه می کند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج می گردد و نهایتاً این جملات کلیدی برای خوشه بندی به الگوریتم Stc داده می شود.

روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها:
۴۸

سال ۱۴۰۳ (۲)

سال ۱۴۰۲ (۴)

سال ۱۴۰۱ (۴)

سال ۱۴۰۰ (۴)

سال ۱۳۹۹ (۴)

سال ۱۳۹۸ (۴)

سال ۱۳۹۷ (۴)

سال ۱۳۹۶ (۴)

سال ۱۳۹۵ (۴)

سال ۱۳۹۴ (۴)

سال ۱۳۹۳ (۴)

سال ۱۳۹۲ (۴)

سال ۱۳۹۱ (۲)

چکیده

تبلیغات

روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

آرشیو

آرشیو شماره ها: ۴۸

چکیده

تبلیغات

آرشیو شماره ها:
۴۸