بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی اسناد متنی: مروری بر مطالعات(مقاله علمی وزارت علوم)
حوزه های تخصصی:
هدف: باتوجه به افزایش نرخ استفاده از اینترنت و افزایش حجم اسناد الکترونیکی قابل مشاهده در وب، طبقه بندی خودکار متن تبدیل به یکی از روش های کلیدی برای ارتقای بازیابی اطلاعات و مدیریت دانش مجموعه های متنی دیجیتالی شده است. افراد با طبقه بندی متون می توانند اطلاعات موردنیاز خود را با دقت بیشتر و سرعت بالاتر جستجو و بازیابی کنند. آن چیزی که در بحث طبقه بندی خودکار اسناد حائز اهمیت است، برچسب گذاری اسناد به کلاس های از پیش تعریف شده است، به گونه ای که اسنادی که در یک طبقه جای می گیرند بیشترین شباهت و با اسناد سایر طبقه ها بیشترین تفاوت را داشته باشند و قابلیت استفاده از روابط معنایی را داشته باشد. در ای ن راس تا، پژوه ش حاض ر به بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی خودکار اسناد متنی می پردازد.روش: این مطالعه به مرور پژوهش ها و اسناد مرتبط با کاربرد ابزارهای معنایی مانند هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی پرداخته است. به منظور جمع آوری متون، سه پایگاه اطلاعاتی داخلی شامل «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی» و «مرجع دانش» و سه پایگاه استنادی خارجی یعنی «وب آو ساینس»، «اسکوپوس» و «گوگل اسکالر» بدون درنظرگرفتن بازه زمانی در هر دو دسته بررسی شده است.
یافته ها: نتایج واکاوی متون نشان داد در مدل فضای برداری ارتباط معنایی بین کلمات در نظر گرفته نمی شود و ترتیب کلمات در جملات از بین می رود. با نادیده گرفتن روابط معنایی و نحوی مختلف بین کلمات در زبان طبیعی، بازنمایی متفاوتی از اسناد فراهم می شود؛ اما هستی شناسی ها و نمودار دانش با دریافت معنای موجودیت ها و کلاس ها به تقویت مدل های یادگیری ماشینی کمک می نمایند. استفاده از این ابزارها به عنوان یک مرجع خارجی در حین فرایند طبقه بندی عمل می کند و دانش زمینه را برای مدل های طبقه بندی فراهم می نماید. به طورکلی استفاده از این ابزارها به ماشینن ها اجازه می دهند معنای داده هایی را که با آن ها کار می کنند، درک کنند.نتیجه گیری: کاربست هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی می تواند موجب تقویت نتایج الگوریتم های یادگیری ماشین از طریق بهره برداری از دانش زمینه شود. این ابزارها می تواند معانی کلمات را از جملات دارای ابهام آزاد نموده و مشکلات مرتبط با زبان طبیعی را حل کند. استفاده از هستی شناسی و نمودار دانش می تواند به طور مؤثری در طبقه بندی اسناد متنی کمک کند و باعث ارتقای دقت و کارایی مدل های طبقه بندی شود؛ اما ساخت و ادغام هستی شناسی و نمودار دانش امری خسته کننده، زمان بر و پیچیده است که امکان پذیری و ارزش عملی آن ها را محدود می کند. در زبان فارسی علاوه بر مشکل مطرح شده در به کارگیری هستی شناسی ها و نمودار دانش در طبقه بندی اسناد، محدودیت هایی مانند ویژگی های خاص زبان فارسی در نگارش و محدودیت فنی وجود دارد؛ لذا استفاده از هستی شناسی و نمودارهای دانش عمومی و یا دامنه در بحث طبقه بندی اسناد نیازمند توجه به این محدودیت ها و پیچیدگی های فنی است و علاوه بر این مستلزم توسعه و تلاش های بیشتری بالأخص در زبان فارسی است.