مروری نظام مند بر پژوهش های بهبود الگوریتم کا-میانه برای خوشه بندی داده ها(مقاله علمی وزارت علوم)
حوزه های تخصصی:
خوشه بندی به عنوان یک فرایند جهت شناخت ماهیت و ساختار داده ها در بسیاری از حوزه های علوم و فناوری های مرتبط با آن نقش مهمی در سازماندهی داده ها دارد. یکی از الگوریتم های پرکاربرد و ساده خوشه بندی، کا-میانه است. پژوهش حاضر با هدف مرور نظام مند تحقیقات در زمینه بهبود الگوریتم کا-میانه برای خوشه بندی داده ها صورت گرفته است. این پژوهش با یک راهبرد جدید بر مبنای کاستی های الگوریتم کا-میانه به بررسی تحقیقات انجام شده در این زمینه و نقش آن در سازماندهی داده ها در محدوده سال های ۲۰۱۰ تا ۲۰۲۰ می پردازد. برای این منظور میزان توجه پژوهشگران به رفع هر یک از کاستی های این الگوریتم برای بهبود طی سال های مزبور در قالب پرسش های پژوهش تدوین شده است. در این پژوهش با استفاده از استراتژی جست وجو، پالایش، و استخراج مقاله ها در نهایت، ۴۷ منبع مرتبط شناسایی و مورد بررسی قرار گرفت. یافته ها نشان داد که بیشترین تحقیقات صورت گرفته با غلبه بر کاستی حساس به مراکز خوشه اولیه در جهت بهبود الگوریتم کا-میانه انجام شده است. همچنین، از ۴۷ تحقیق مورد بررسی، الگوریتم بهبودیافته کا-میانه در ۳۵ تحقیق بر روی داده های غیرمتنی و در ۱۲ تحقیق بر روی داده های متنی اعمال شده است. سرانجام، نتیجه حاصل از بررسی ۶ تحقیق از تحقیقات صورت گرفته نشان داد که حجم داده ها رابطه ای مستقیم با عملکرد الگوریتم بهبودیافته کا-میانه دارد. به عبارت دیگر، این الگوریتم باید به نوعی اصلاح شود که با اعمال بر روی حجم متفاوت داده ها خوشه بندی کارآمد و دقیقی انجام دهد.