فضای برداری

۱.

تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه(مقاله علمی وزارت علوم)

نویسنده: مسعود قیومی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۵ پاییز ۱۳۹۸ شماره ۱ (پیاپی ۹۹) 25-50

کلیدواژه‌ها: تعبیه معنایی واژه خوشه بندی یادگیری ماشین بی نظارت فضای برداری پردازش زبان طبیعی بازنمایی معنایی واژه زبان فارسی

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۹۲۸ تعداد دانلود : ۶۰۰

واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.

۲.

کاربرد یادگیری ماشینی مبتنی بر شبکه عصبی برای دسته بندی مستندات علمی(مقاله علمی وزارت علوم)

نویسنده: مسعود قیومی مریم موسویان

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۷ تابستان ۱۴۰۱ شماره ۴ (پیاپی ۱۱۰) ۱۲۱۷-۱۲۴۴

کلیدواژه‌ها: مستندات علمی علوم انسانی دسته بندی شبکه عصبی فضای برداری ParsBERT معناشناسی توزیعی

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۵۶۶ تعداد دانلود : ۳۱۵

از دهه ۱۳۸۰ شمسی، نگارش و انتشار مقالات علمی در ایران شدت بسیار زیادی به خود گرفته و سبب شده است علاوه بر سازمان های دولتی مانند ایرانداک و سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، سامانه های برخط متعدد دیگری چون پرتال جامع علوم انسانی، نورمگز، مگ ایران، علم نت، سیویلیکا و غیره اقدام به مدیریت دانش و تهیه بایگانی های ساختارمند مستندات علمی کند. هرکدام از این بایگانی ها، امکاناتی را در اختیار کاربر قرار می دهد. یکی از این امکانات، قابلیت جستجو است و جستجوی دقیق می تواند بر کاربری این سامانه ها تأثیر به سزایی بگذارد. برای افزایش دقت جستجو نیاز است حوزه علمی مقالات مشخص شود. دسته بندی حجم زیاد منابع علمی در حوزه های مختلف بسیار زمانبر است که استفاده از روش های ماشینی به عنوان یک راه حل می تواند از این کار طاقت فرسا بکاهد. هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش های پیشینِ دسته بندی به طور عمده از الگوریتم های دسته بندی متداول برای متن ساده به کار رفته است، در این پژوهش تلاش می شود علاوه بر استفاده از این دسته بندها، از دسته بندهای مبتنی بر شبکه عصبی، مانند شبکه عصبی پیچشی[۱] و پرسپترون[۲]، به همراه بازنمایی معنایی مبتنی بر بافت، مانند ParsBERT، استفاده گردد و نتایج آن با سایر روش های متداول در ساخت بردار مستندات، مانند Word2Vec، مقایسه گردد. برای این هدف، از داده های پرتال علوم انسانی که دربرگیرنده مقالات متنوع علوم انسانی استفاده می کنیم. ویژگی این داده مشخص بودن حوزه تخصصی هر مقاله است. یکی از ویژگی های شبکه عصبی این است که برایندی از ویژگی های نهفته از داده در فضای برداریِ ساخته شده شکل می گیرد و برای آموزش مدل استفاده می گردد. براساس نتایج عملی، دسته بند پرسپترون مبتنی بر ParsBERT بالاترین کارایی ۷۴/۷۱ درصدی براساس امتیاز F میکرو و کارایی ۷۲/۵۵ درصدی براساس امتیاز F ماکرو را به دست آورده است. [۱] convolutional neural network [۲] perceptron neural network