تخمین تعداد موضوعات در مدلسازی موضوعی روی مقالات علمی فارسی(مقاله علمی وزارت علوم)
حوزه های تخصصی:
با افزایش داده ها در سال های اخیر که عمدتا غیرساخت یافته هستند، بدست آوردن اطلاعات دلخواه و مرتبط با پیچیدگی هایی همراه می شود. هوش مصنوعی با ارائه تکنیک هایی کمک می کند تا بتوان اطلاعات ارزشمندی را از داده ها استخراج کرد. یکی از تکنیک های قوی برای تحلیل مجموعه بزرگی از متون، مدلسازی موضوعی است که در واقع فرآیند تشخیص خودکار موضوعات در یک متن با هدف کشف الگوهای پنهان می باشد. بزرگترین چالش موجود در مدلسازی موضوعی، تشخیص تعداد موضوعات موجود می باشد که نتیجه نهایی به این پارامتر وابسته است. این پژوهش با مقایسه دو روش، یکی مبتنی بر گریدی و دیگری مبتنی بر نظریه بازبهنجاری، این پارامتر را برای مقالات نشریات فارسی تخمین زده است. روش گریدی با تعریف یک معیار برای ارزیابی مدل موضوعی و بدست آوردن این معیار با توجه به مقادیر مختلف تعداد موضوعات، می تواند تعداد موضوعات بهینه را تخمین بزند. الگوریتم دیگر مبتنی بر نظریه بازبهنجاری است که در واقع یک فرمولاسیون ریاضی برای ساخت یک رویه برای تغییر مقیاس سیستم تحت بررسی می باشد؛ به صورتی که رفتار سیستم حفظ شود و تغییری در روند آن ایجاد نشود. با استفاده از این نظریه و استفاده از اطلاعات مرحله قبل، می توان تعداد موضوعات را با سرعت تخمین زد. همچنین مدت زمان اجرای هر دو الگوریتم روی مقالات نشریات مختلف فارسی، ارائه و با یکدیگر مقایسه شده است. یافته ها نشان دهنده سرعت روش مبتنی بر نظریه بازبهنجاری در تخمین تعداد موضوعات موجود در مقالات نشریات فارسی است. به عنوان دستاورد دیگری از این پژوهش، لیستی از ایست واژه هایی که منحصرا مربوط به مقالات فارسی هستند، استخراج و ارائه گردید.