به کارگیری خوشه بندی مفهومی برای استخراج عبارات کلیدی و اصطلاحات مرتبط: مطالعه موردی متون حوزه ارتباطات علمی (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
ارتباط علمی از انواع و گونه های ارتباطات است که از طریق به کارگیری روش ها و ابزارهای ارتباطی و با هدف تبادل دانش و اطلاعات علمی انجام می شود. به منظور احراز دیدگاهی جامع درباره ارتباطات علمی و پژوهشی و تقویت آن باید اصطلاحات و مفاهیم آن شناسایی گردد. از این رو، هدف اصلی پژوهش حاضر، شناسایی و خوشه بندی مفهومی اصطلاحات و مفاهیم کلیدی در حوزه ارتباطات علمی با استفاده از تکنیک های متن کاوی است. روش پژوهش حاضر از لحاظ رویکرد، کمی و از لحاظ هدف، کاربردی است. همچنین برای شناسایی و خوشه بندی اصطلاحات کلیدی در حوزه ارتباطات علمی از تکنیک های مختلف متن کاوی استفاده گردید. جامعه آماری پژوهش حاضر، مشتمل بر چکیده مقالات مرتبط با حوزه ارتباطات علمی مستخرج از پایگاه های اطلاعاتی وب آوساینس و اسکوپوس به تعداد 558 مقاله و روش نمونه گیری، سرشماری بود. ابتدا تمامی اصطلاحات و عبارات اسمی با استفاده از کتابخانه های موجود با کدنویسی به زبان پایتون مورد استخراج و فراوانی واژگان محاسبه گردید. سپس هر عبارت مرکب به واژگان تشکیل دهنده آن تجزیه شده و بر مبنای واژه نامه گلاو و با محاسبه میانگین بردارهای آن کلمات، یک بردار عددی تخصیص یافت. برای اصطلاحات ناشناخته نیز- که در واژه نامه گلاو وجود نداشت- یک عبارت معادل با استفاده از واژگان موجود جهت توصیف آن، جایگزین و بردار عددی عبارت، ساخته شد و خوشه بندی (به روش کا-مینز) بر روی آن واژگان انجام شد. یافته ها نشان داد که از 17930 کلیدواژه مستخرج، تعداد 13651 واژه، عبارت اسمی بود. همچنین 16 درصد از اصطلاحات حوزه ارتباطات علمی، تک واژه ای و 84 درصد آن مرکب بودند. پس از ایجاد بردارهای اصطلاحات مرکب و انجام خوشه بندی، از 792 عبارت یا اصطلاح در حوزه ارتباطات علمی، تعداد 40 خوشه مفهومی ایجاد گردید. پس از تعدیل و حذف خوشه های ضعیف در نهایت تعداد 22 خوشه در حوزه ارتباطات علمی شناسایی گردید. شناسایی مفاهیم اصلی در ارتباطات علمی در قالب خوشه های مفهومی و عناصر آن از نتایج پژوهش حاضر قلمداد می شود. از مهمترین یافته های دیگر پژوهش، تخصیص بردارهای عددی به عبارات ترکیبی از روی بردار واژگان تشکیل دهنده آنها و سپس استفاده از این بردارها برای خوشه بندی و دسته بندی عبارات و همچنین قابلیت بهبود و تصحیح بعضی از خوشه ها بود. این روش در خوشه بندی و دسته بندی مفاهیم امکان توجه به جنبه های معناشناسی و یادگیری را مورد توجه قرار می دهد و به تحلیل دقیق اصطلاحات و عبارات کلیدی در حوزه های مختلف کمک خواهد کرد.Using Conceptual Clustering to Extraction of Key Phrases and Related Terms: A Case Study of Scientific Communication Texts
Scientific communication encompasses various types and forms of communication conducted through the use of communication methods and tools, aiming to exchange scientific knowledge and information. To gain a comprehensive understanding of scientific and research communications and enhance them, it is crucial to identify the terms and concepts. Therefore, the main objective of this research is to identify and conceptually cluster key terms in the field of scientific communication using text mining techniques. The present research method is quantitative in terms of approach and practical in terms of purpose and utilized various text mining techniques for identifying and clustering key terms in the field of scientific communication. The research population consist of abstracts of articles related to scientific communication, extracted from databases such as Web of Science and Scopus, totaling 558 articles. The sampling method was census. Initially, all nominal phrases were extracted using available libraries. Each compound phrase was decomposed into its constituent words, and based on GloVe dictionary, the average vectors of those words were calculated, assigning a numerical vector to each compound phrase. The researchers created an equivalent expression using existing vocabulary to describe unknown terms that did not exist in the GloVe dictionary. The clustering (using the K-means method) was performed on these vectors. The findings revealed that out of 17,930 extracted keywords, 13,651 terms were noun phrases. Also, 16% of terms in the field of scientific communication were single words and 84% of them were compound. After creating vectors of compound terms and performing clustering, 40 conceptual clusters were created from 792 phrases or terms in the field of scientific communication. After adjusting and removing weak clusters, researchers finally identified 22 clusters in the field of scientific communication. Identifying the concepts and components in scientific communication in the form of conceptual clusters and its elements is attributed to the results of this research. One of the most significant findings was the assignment of numerical vectors to composite phrases based on the vectors of their constituent words. These vectors were then used for clustering and categorizing phrases, as well as improving and correcting some clusters. This method pays attention to the semantics aspects and learning in the clustering and categorization of concepts and, will aid to precise analysis of key terms and phrases in various fields.