بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی اسناد متنی: مروری بر مطالعات (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
هدف: باتوجه به افزایش نرخ استفاده از اینترنت و افزایش حجم اسناد الکترونیکی قابل مشاهده در وب، طبقه بندی خودکار متن تبدیل به یکی از روش های کلیدی برای ارتقای بازیابی اطلاعات و مدیریت دانش مجموعه های متنی دیجیتالی شده است. افراد با طبقه بندی متون می توانند اطلاعات موردنیاز خود را با دقت بیشتر و سرعت بالاتر جستجو و بازیابی کنند. آن چیزی که در بحث طبقه بندی خودکار اسناد حائز اهمیت است، برچسب گذاری اسناد به کلاس های از پیش تعریف شده است، به گونه ای که اسنادی که در یک طبقه جای می گیرند بیشترین شباهت و با اسناد سایر طبقه ها بیشترین تفاوت را داشته باشند و قابلیت استفاده از روابط معنایی را داشته باشد. در ای ن راس تا، پژوه ش حاض ر به بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی خودکار اسناد متنی می پردازد.روش: این مطالعه به مرور پژوهش ها و اسناد مرتبط با کاربرد ابزارهای معنایی مانند هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی پرداخته است. به منظور جمع آوری متون، سه پایگاه اطلاعاتی داخلی شامل «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی» و «مرجع دانش» و سه پایگاه استنادی خارجی یعنی «وب آو ساینس»، «اسکوپوس» و «گوگل اسکالر» بدون درنظرگرفتن بازه زمانی در هر دو دسته بررسی شده است. یافته ها: نتایج واکاوی متون نشان داد در مدل فضای برداری ارتباط معنایی بین کلمات در نظر گرفته نمی شود و ترتیب کلمات در جملات از بین می رود. با نادیده گرفتن روابط معنایی و نحوی مختلف بین کلمات در زبان طبیعی، بازنمایی متفاوتی از اسناد فراهم می شود؛ اما هستی شناسی ها و نمودار دانش با دریافت معنای موجودیت ها و کلاس ها به تقویت مدل های یادگیری ماشینی کمک می نمایند. استفاده از این ابزارها به عنوان یک مرجع خارجی در حین فرایند طبقه بندی عمل می کند و دانش زمینه را برای مدل های طبقه بندی فراهم می نماید. به طورکلی استفاده از این ابزارها به ماشینن ها اجازه می دهند معنای داده هایی را که با آن ها کار می کنند، درک کنند.نتیجه گیری: کاربست هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی می تواند موجب تقویت نتایج الگوریتم های یادگیری ماشین از طریق بهره برداری از دانش زمینه شود. این ابزارها می تواند معانی کلمات را از جملات دارای ابهام آزاد نموده و مشکلات مرتبط با زبان طبیعی را حل کند. استفاده از هستی شناسی و نمودار دانش می تواند به طور مؤثری در طبقه بندی اسناد متنی کمک کند و باعث ارتقای دقت و کارایی مدل های طبقه بندی شود؛ اما ساخت و ادغام هستی شناسی و نمودار دانش امری خسته کننده، زمان بر و پیچیده است که امکان پذیری و ارزش عملی آن ها را محدود می کند. در زبان فارسی علاوه بر مشکل مطرح شده در به کارگیری هستی شناسی ها و نمودار دانش در طبقه بندی اسناد، محدودیت هایی مانند ویژگی های خاص زبان فارسی در نگارش و محدودیت فنی وجود دارد؛ لذا استفاده از هستی شناسی و نمودارهای دانش عمومی و یا دامنه در بحث طبقه بندی اسناد نیازمند توجه به این محدودیت ها و پیچیدگی های فنی است و علاوه بر این مستلزم توسعه و تلاش های بیشتری بالأخص در زبان فارسی است.The Role of Ontology and Knowledge Graph in Text Document Classification: A Review of Studies
Purpose: With the increasing use of the internet and the growing volume of electronically accessible documents on the web, automatic text classification has become a critical method for enhancing information retrieval and managing digital text collections. Text classification allows individuals to search for and retrieve information more accurately and quickly. The significance of automatic document classification lies in labeling documents into predefined classes so that documents within a class exhibit the highest similarity and the most remarkable dissimilarity with documents from other classes while utilizing semantic relationships. This study investigates the application of ontology and knowledge graphs in automatic text document classification.Method: This study reviewed research and documents related to applying semantic tools such as ontologies and knowledge graphs in text document classification. To collect texts, three domestic databases, including the "National Journal Database," the "Scientific Information Database of Jihad University," and "Marefate Danesh," along with three internal databases "Magiran," "SID" and "Civilica" and three external citation databases, such as "Web of Science", "Scopus" and "Google Scholar" It has been examined in both categories, regardless of the period.Findings: Results of text exploration show that the vector space model does not consider the semantic relationships between words and disregards the word order in sentences. Neglecting the semantic and syntactic relationships between words in natural language provides a different representation of documents. However, ontologies and knowledge graphs help strengthen machine learning models by capturing the meaning of entities and classes. These tools act as an external reference during the classification process and provide domain knowledge for classification models. Using these tools generally allows machines to comprehend the meaning of the data they work with.Conclusion: The application of ontologies and knowledge graphs in classifying textual documents can strengthen the results of machine learning algorithms through background knowledge. These tools can free the meanings of words from ambiguous sentences and solve problems related to natural language. Using ontology and knowledge graphs can effectively help classify textual documents and improve the accuracy and efficiency of classification models. However, constructing and integrating ontologies and knowledge graphs is a tedious, time-consuming, and complex task that limits the feasibility and practical application of these tools. In the Persian language, in addition to the problems raised in the application of ontologies and knowledge graphs in the classification of documents, there are limitations such as the specific features of the language in writing and technical limitations. Therefore, the use of ontology and knowledge graphs in discussing the classification of textual documents requires attention to linguistic limitations and technical complexity, and the need for further development and efforts is felt, especially in Persian.