مطالب مرتبط با کلیدواژه

معناشناسی توزیعی


۱.

کاربرد یادگیری ماشینی مبتنی بر شبکه عصبی برای دسته بندی مستندات علمی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: مستندات علمی علوم انسانی دسته بندی شبکه عصبی فضای برداری ParsBERT معناشناسی توزیعی

حوزه های تخصصی:
تعداد بازدید : ۴۰۳ تعداد دانلود : ۲۱۰
از دهه ۱۳۸۰ شمسی، نگارش و انتشار مقالات علمی در ایران شدت بسیار زیادی به خود گرفته و سبب شده است علاوه بر سازمان های دولتی مانند ایرانداک و سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، سامانه های برخط متعدد دیگری چون پرتال جامع علوم انسانی، نورمگز، مگ ایران، علم نت، سیویلیکا و غیره اقدام به مدیریت دانش و تهیه بایگانی های ساختارمند مستندات علمی کند. هرکدام از این بایگانی ها، امکاناتی را در اختیار کاربر قرار می دهد. یکی از این امکانات، قابلیت جستجو است و جستجوی دقیق می تواند بر کاربری این سامانه ها تأثیر به سزایی بگذارد. برای افزایش دقت جستجو نیاز است حوزه علمی مقالات مشخص شود. دسته بندی حجم زیاد منابع علمی در حوزه های مختلف بسیار زمانبر است که استفاده از روش های ماشینی به عنوان یک راه حل می تواند از این کار طاقت فرسا بکاهد. هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش های پیشینِ دسته بندی به طور عمده از الگوریتم های دسته بندی متداول برای متن ساده به کار رفته است، در این پژوهش تلاش می شود علاوه بر استفاده از این دسته بندها، از دسته بندهای مبتنی بر شبکه عصبی، مانند شبکه عصبی پیچشی[۱] و پرسپترون[۲]، به همراه بازنمایی معنایی مبتنی بر بافت، مانند ParsBERT، استفاده گردد و نتایج آن با سایر روش های متداول در ساخت بردار مستندات، مانند Word2Vec، مقایسه گردد. برای این هدف، از داده های پرتال علوم انسانی که دربرگیرنده مقالات متنوع علوم انسانی استفاده می کنیم. ویژگی این داده مشخص بودن حوزه تخصصی هر مقاله است. یکی از ویژگی های شبکه عصبی این است که برایندی از ویژگی های نهفته از داده در فضای برداریِ ساخته شده شکل می گیرد و برای آموزش مدل استفاده می گردد. براساس نتایج عملی، دسته بند پرسپترون مبتنی بر ParsBERT بالاترین کارایی ۷۴/۷۱ درصدی براساس امتیاز F میکرو و کارایی ۷۲/۵۵ درصدی براساس امتیاز F ماکرو را به دست آورده است. [۱] convolutional neural network [۲] perceptron neural network
۲.

ارزیابی ساختار هرم وارونه در پیکره بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر(مقاله علمی وزارت علوم)

نویسنده:

کلیدواژه‌ها: پیکره خبری ضریب همبستگی پیرسون معناشناسی توزیعی ورد2وک هرم وارونه خبر

حوزه های تخصصی:
تعداد بازدید : ۱۱۰ تعداد دانلود : ۸۲
گفتمان خبری گونه ای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری می پردازد. باتوجه به این که در قالب بندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونه خبر برای درجه بندی اهمیت بخش های گفتمانی خبر استفاده می شود. اگرچه رعایت ساختار هرم وارونه خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش می شود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاه های خبری فارسی پرداخته شود. برای رسیدن به هدف می توان از علم داده استفاده کرد. این بین رشته ای از جنبه علمی به تحلیل داده، یافتن مفاهیم ضمنی به دست آمده از تحلیل داده ها و استخراج دانش از داده ها می پردازد. در چارچوب علم داده به بررسی پیکره ای متون خبری فارسی پرداخته شده و وجود رابطه همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونه خبر مورد مطالعه قرار می گیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکره خبری نسبتاً بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری به دست آمده است. پس از پیش پردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک به دست آمده و براساس آن بردار هر خبر ساخته شده است. پس از بخش بندی محتوای هر خبر براساس هرم وارونه خبر به سه قسمت سرنخ (لید)، بدنه و ارائه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شده است. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. به طور متوسط، همبستگی میان عنوان و بدنه خبر بیش از همبستگی میان عنوان و توسعه سرنخ بود. این پژوهش می تواند به عنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبق بر هرم وارونه استفاده گردد.