آرشیو

آرشیو شماره‌ها:
۳۶

چکیده

از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد ۵، ۱۰ و ۱۵ موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.

Investigating the Evolution of the Topics in Language and Linguistics Persian Articles with the Help of a Computer

Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.

تبلیغات