شناسایی موضوعات داغ و روندها در علم اطلاعات و دانش شناسی با استفاده از تکنیک های متن کاوی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

نویسندگان: الهه اخوان حریری علی منصوری حسین کارشناس نجف آبادی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره 38 زمستان 1401 شماره 2 (پیاپی 112)

کلیدواژه‌ها: موضوعات داغ موضوع سرد تخصیص دیریکلت پنهان متن کاوی علم اطلاعات و دانش شناسی

حوزه‌های تخصصی:

doi: 10.35050/JIPM010.2022.028

شماره صفحات: ۳۵ - ۶۲

دریافت مقاله تعداد دانلود : ۲۲۹

آرشیو

چکیده

شناسایی موضوعات داغ در حوزه های پژوهشی همواره موردتوجه بوده است؛ تصمیم گیری هوشمندانه در مورد آنچه باید مورد مطالعه و قرار بگیرد، همواره عاملی اساسی برای محققان بوده و می تواند برای پژوهشگران موضوعی چالش برانگیز باشد. هدف پژوهش حاضر، شناسایی موضوعات داغ در مقالات نمایه شده در پایگاه اسکوپوس در حوزه علم اطلاعات و دانش شناسی در سال های 2010 تا 2019 با استفاده از تکنیک های متن کاوی است. جامعه آماری، شامل 50995 مقاله منتشرشده در 249 عنوان مجله نمایه شده در پایگاه اسکوپوس در این حوزه در بازه زمانی 2010 تا 2019 است. برای شناسایی خوشه های موضوعی این حوزه، از الگوریتم های تکنیک تخصیص دیریکلت پنهان (LDA) استفاده شد و داده ها با استفاده از کتابخانه های متن کاوی در نرم افزار پایتون مورد تحلیل قرار گرفت. برای این کار، با اجرای الگوریتم وزن دهی لغات به روش TF-IDF و تشکیل ماتریس متنی، موضوعات در پیکره اسناد تعیین و ضرایب اختصاص هر سند به هر موضوع (تتا) مشخص شد. خروجی اجرای الگوریتم LDA، منجر به شناسایی تعداد 260 موضوع شد. تخصیص برچسب به هریک از خوشه های موضوعی، بر اساس کلمات با بالاترین وزن اختصاص یافته به هر موضوع و با نظر کارشناسان حوزه موضوعی، انجام گرفت. با انجام محاسبات با ضریب اطمینان 95%، تعداد 63 موضوع از بین 260 موضوع اصلی انتخاب شد. با محاسبه میانگین تتا برحسب سال، تعداد 24 موضوع دارای روند مثبت (موضوع داغ) و تعداد 39 موضوع دارای روند منفی (موضوع سرد) تعیین شد. بر اساس نتایج، موضوعات مطالعات سنجشی، مدیریت الکترونیکی/ بازاریابی الکترونیکی، بازیابی محتوا، تحلیل داده و مهارت الکترونیکی، ازجمله موضوعات داغ بود و موضوعات آموزش، آرشیو، مدیریت دانش، سازمان دهی و سلامت کتابداران ازجمله موضوعات سرد در حوزه علم اطلاعات و دانش شناسی در بازه زمانی 2010 تا 2019 شناسایی شد. تحلیل یافته ها نشانگر آن است که به دلیل رویکرد اغلب پژوهشگران در 10 سال گذشته به استفاده از فنّاوری های نوظهور، موضوعات مبتنی بر فنّاوری بیشتر باعث جذب آنان شده و در مقابل، موضوعات پایه ای این حوزه، کمتر موردتوجه قرارگرفته اند.

Identification of Hot Topics and Trends in Knowledge and Information Science, Based on Text Mining Techniques

Identification of hot topics in research areas has always been of interest. Making smart decisions about what is needed to be studied is always a fundamental factor for researchers and can be challenging for them. The goal of this study is to identify hot topics and thematic trend analysis of articles indexed in Scopus database in the field of Knowledge and Information Science (KIS), between 2010 and 2019, by Text Mining techniques. The population consists of 50995 articles published in 249 journals indexed in Scopus database in the field of KIS from 2010 to 2019. To identify thematic clusters, algorithms of Latent Dirichlet Allocation (LDA) technique were used and the data were analyzed using libraries in Python software. To do this, by implementing the word weighting algorithm, using the TF-IDF method, and weighting all of the words and forming a text matrix, the topics in the documents and the coefficients for assigning each document to each topic (Theta) were determined. The output of the LDA algorithm led to the identification of the optimal number of 260 topics. Each topic was labeled based on the words with the highest weight assigned to each topic and with considering of experts’ opinions. Then, Topic clustering, keywords and topics identification were done. By performing calculations with 95% confidence, 63 topics were selected from 260 main topics. By calculating the average theta in years, 24 topics with a positive trend or slope (hot topic) and 39 topics with a negative trend or negative slope (cold topic) were determined. According to the results, measurement studies, e-management/ e-marketing, content retrieval, data analysis and e-skills, are considered as hot topics and training, archive, knowledge management, organization and librarians' health, were identified as cold topics in the field of KIS, in the period 2010 to 2019. The analysis of the findings shows that due to the interest of the most researchers in the last 10 years in using of emerging technologies, technology-based topics have attracted them more. In contrast, basic issues are less considered to be developed.