مطالب مرتبط با کلیدواژه

اسناد متنی


۱.

بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی اسناد متنی: مروری بر مطالعات(مقاله علمی وزارت علوم)

کلیدواژه‌ها: طبقه بندی خودکار اسناد متنی نمودار دانش هستی شناسی دانش دامنه

حوزه‌های تخصصی:
تعداد بازدید : ۷۵ تعداد دانلود : ۷۰
 هدف: باتوجه به افزایش نرخ استفاده از اینترنت و افزایش حجم اسناد الکترونیکی قابل مشاهده در وب، طبقه بندی خودکار متن تبدیل به یکی از روش های کلیدی برای ارتقای بازیابی اطلاعات و مدیریت دانش مجموعه های متنی دیجیتالی شده است. افراد با طبقه بندی متون می توانند اطلاعات موردنیاز خود را با دقت بیشتر و سرعت بالاتر جستجو و بازیابی کنند. آن چیزی که در بحث طبقه بندی خودکار اسناد حائز اهمیت است، برچسب گذاری اسناد به کلاس های از پیش تعریف شده است، به گونه ای که اسنادی که در یک طبقه جای می گیرند بیشترین شباهت و با اسناد سایر طبقه ها بیشترین تفاوت را داشته باشند و قابلیت استفاده از روابط معنایی را داشته باشد. در ای ن راس تا، پژوه ش حاض ر به بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی خودکار اسناد متنی می پردازد.روش: این مطالعه به مرور پژوهش ها و اسناد مرتبط با کاربرد ابزارهای معنایی مانند هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی پرداخته است. به منظور جمع آوری متون، سه پایگاه اطلاعاتی داخلی شامل «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی» و «مرجع دانش» و سه پایگاه استنادی خارجی یعنی «وب آو ساینس»، «اسکوپوس» و «گوگل اسکالر» بدون درنظرگرفتن بازه زمانی در هر دو دسته بررسی شده است. یافته ها: نتایج واکاوی متون نشان داد در مدل فضای برداری ارتباط معنایی بین کلمات در نظر گرفته نمی شود و ترتیب کلمات در جملات از بین می رود. با نادیده گرفتن روابط معنایی و نحوی مختلف بین کلمات در زبان طبیعی، بازنمایی متفاوتی از اسناد فراهم می شود؛ اما هستی شناسی ها و نمودار دانش با دریافت معنای موجودیت ها و کلاس ها به تقویت مدل های یادگیری ماشینی کمک می نمایند. استفاده از این ابزارها به عنوان یک مرجع خارجی در حین فرایند طبقه بندی عمل می کند و دانش زمینه را برای مدل های طبقه بندی فراهم می نماید. به طورکلی استفاده از این ابزارها به ماشینن ها اجازه می دهند معنای داده هایی را که با آن ها کار می کنند، درک کنند.نتیجه گیری: کاربست هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی می تواند موجب تقویت نتایج الگوریتم های یادگیری ماشین از طریق بهره برداری از دانش زمینه شود. این ابزارها می تواند معانی کلمات را از جملات دارای ابهام آزاد نموده و مشکلات مرتبط با زبان طبیعی را حل کند. استفاده از هستی شناسی و نمودار دانش می تواند به طور مؤثری در طبقه بندی اسناد متنی کمک کند و باعث ارتقای دقت و کارایی مدل های طبقه بندی شود؛ اما ساخت و ادغام هستی شناسی و نمودار دانش امری خسته کننده، زمان بر و پیچیده است که امکان پذیری و ارزش عملی آن ها را محدود می کند. در زبان فارسی علاوه بر مشکل مطرح شده در به کارگیری هستی شناسی ها و نمودار دانش در طبقه بندی اسناد، محدودیت هایی مانند ویژگی های خاص زبان فارسی در نگارش و محدودیت فنی وجود دارد؛ لذا استفاده از هستی شناسی و نمودارهای دانش عمومی و یا دامنه در بحث طبقه بندی اسناد نیازمند توجه به این محدودیت ها و پیچیدگی های فنی است و علاوه بر این مستلزم توسعه و تلاش های بیشتری بالأخص در زبان فارسی است.
۲.

تحلیل همپوشانی عناصر واسط در بازنمایی اسناد متنی: مطالعه ای به روش الگوریتم «RAKE»(مقاله علمی وزارت علوم)

کلیدواژه‌ها: اسناد متنی استخراج کلیدواژه همپوشانی کلیدواژه بازنمایی اسناد پراکندگی داده ها

حوزه‌های تخصصی:
تعداد بازدید : ۷ تعداد دانلود : ۷
هدف: پژوهش حاضر با هدف بررسی میزان همپوشانی کلیدواژه های استخراج شده از عناصر واسط در بازنمایی اسناد متنی با استفاده از الگوریتم «Rake» انجام شد.روش: در این پژوهش، با استفاده از الگوریتم «Rake» کلیدواژه های مجموعه داده ای شامل 500 مقاله علمی در پنج گروه موضوعی مختلف استخراج شد. سپس همپوشانی بین کلیدواژه های عنوان، چکیده و کلیدواژه های نویسندگان موردبررسی قرار گرفت.یافته ها: نتایج نشان داد که همپوشانی بین کلیدواژه های عنوان و کلیدواژه های نویسندگان حدود 45 درصد و همپوشانی بین کلیدواژه های چکیده و کلیدواژه های نویسندگان حدود 18 درصد بود. در ادامه مشاهده شد که کلیدواژه های عنوان دارای پوشش 22 درصدی کلیدواژه های چکیده بودند. نتایج همچنین نشان داد که همپوشانی و پراکندگی بین کلیدواژه های چکیده و کلیدواژه های نویسندگان و نیز بین کلیدواژه های چکیده و کلیدواژه های عنوان به طور متوازن و تقریباً یکسان بود؛ اما مشاهده شد که کلیدواژه های عنوان و کلیدواژه های نویسندگان دارای پراکندگی بیشتری بودند؛ که نشان دهنده احتمال همپوشانی بیشتر بین کلیدواژه های عنوان و کلیدواژه های نویسنده یک مقاله در مقایسه با کلیدواژه های چکیده و کلیدواژه های نویسنده و همچنین کلیدواژه های چکیده و کلیدواژه های عنوان است. بعلاوه درک خوبی از مفاهیم و مباحث حوزه پژوهشی در رشته های روانشناسی و مدیریت دولتی وجود داشت، درحالی که در رشته های فناوری اطلاعات و حقوق عمومی نیاز به بهبود و تقویت درک مفاهیم مشاهده شد. میزان همپوشانی بین کلیدواژه های چکیده و کلیدواژه های نویسندگان در پنج گروه موضوعی حدود 20 درصد بود.نتیجه گیری: استفاده مناسب از کلیدواژه ها، نوشتن چکیده هایی با محتوای هماهنگ با موضوع موردنظر و انتخاب عناوین متناسب می تواند به بهبود فرایند استخراج مفاهیم، ذخیره سازی و بازیابی مقالات علمی کمک کند، ازجمله اینکه کلیدواژه ها، چکیده ها و عناوین می توانند به عنوان ورودی برای الگوریتم های استخراج مفاهیم، همچنین به عنوان بخش هایی از ساختار ذخیره سازی اطلاعات در سرعت دسترسی کاربران به اطلاعات موردنیازشان و به عنوان ورودی برای الگوریتم های بازیابی اطلاعات برای دسترسی سریع به مقالات مرتبط کمک بسزایی داشته باشند.