Contextualized Text Representation Using Latent Topics for Classifying Scientific Papers (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

نویسندگان: مریم موسویان مسعود قیومی

منبع: زبان پژوهی سال پانزدهم زمستان 1402 شماره 49

کلیدواژه‌ها: Article Content Analysis Contextualized Representation Distributional Semantics Neural Network Scientific Article Classification topic modeling

حوزه‌های تخصصی:

حوزه‌های تخصصی زبان شناسی

doi: 10.22051/jlr.2023.44640.2331

شماره صفحات: ۳۱ - ۶۰

دریافت مقاله تعداد دانلود : ۱۷۰

آرشیو

چکیده

Annually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05).

بازنمایی متن مبتنی بر بافت با استفاده از موضوعات پنهان برای دسته بندی مقالات علمی

سالانه، پژوهشگران در حوزه های گوناگون علمی یافته های پژوهش های خود را به صورت گزارش های فنی یا مقاله هایی در مجموعه مقالات یا مجله ها چاپ می کنند. گردآوری این نوع داده توسط موتورهای جست وجو و کتابخانه های دیجیتال، برای جست وجو و دسترسی به نشریه های پژوهشی به کار گرفته می شود که معمولاً مقاله های مرتبط بر اساس کلیدواژه های پرسمان به جای موضوعات مقاله بازیابی می گردد. در نتیجه، دسته بندی دقیق مقاله های علمی می تواند کیفیت جست وجوی کاربران را هنگام جست وجوی یک سند علمی در پایگاه های اطلاعاتی افزایش دهد. هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین موضوع مقاله های علمی است. به این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنی شده مقاله های فارسی مبتنی بر معناشناسی توزیعی بهره می برد. بر این اساس، شناسایی حوزه خاص هر سند و تعیین دامنه آن توسط دانش غنی شده برجسته، دقت دسته بندی مقاله های علمی را افزایش می دهد. برای دست یابی به هدف، ما مدل های درونه یابی بافتی، اعم از ParsBERT یا XLM-RoBERTa را با موضوع های پنهان در مقاله ها را برای آموزش یک مدل پرسپترون چندلایه غنی می کنیم. بر اساس یافته های تجربی، عملکرد کلیParsBERT-NMF-1HT 72/37 درصد (ماکرو) و 75/21 درصد (میکرو) بر اساس معیار-اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p<0/05) بود.