بازشناسی هیجان مبتنی بر همجوشی اطلاعات چندوجهی با استفاده از مدل ترکیبی یادگیری هیجانی مغز(مقاله علمی وزارت علوم)
حوزه های تخصصی:
مقدمه: بازشناسی هیجان چندوجهی به واسطه دریافت اطلاعات از منابع حسی (وجه های) مختلف از یک ویدیو دارای چالش های فراوانی است و به عنوان روش جدیدی برای تعامل طبیعی انسان با رایانه مورد توجه محققان زیادی قرار گرفته است. هدف از این پژوهش، بازشناسی هیجان به طور خودکار از روی گفتار هیجانی و حالات چهره، مبتنی بر ساز و کارهای عصبی مغز بود. بنابراین، با توجه به مطالعات صورت گرفته در زمینه مدل های الهام گرفته از مغز، یک چارچوب کلی برای بازشناسی هیجان دومدالیتی با الهام از عملکرد کورتکس شنوایی و بینایی و سیستم لیمبیک مغز ارائه شود. روش کار: مدل ترکیبی و سلسله مراتبی پیشنهادی از دو مرحله یادگیری تشکیل شده بود. مرحله اول: مدل های یادگیری عمیق برای بازنمایی ویژگی های بینایی و شنوایی و مرحله دوم: مدل ترکیبی یادگیری هیجانی مغز ( MoBEL ) بدست آمده از مرحله قبل برای همجوشی اطلاعات شنیداری _ دیداری. برای بازنمایی ویژگی های بینایی به منظور یادگیری ارتباط مکانی بین پیکسل ها و ارتباط زمانی بین فریم های ویدئو از مدل شبکه عصبی یادگیری عمیق 3D-CNN استفاده شد. همچنین به منظور بازنمایی ویژگی های شنوایی، ابتدا سیگنال گفتار به تصویر لگاریتم مل _ اسپکتروگرام تبدیل شده سپس به مدل یادگیری عمیق CNN برای استخراج ویژگی های مکانی _ زمانی داده شد. در نهایت، اطلاعات به دست آمده از دو جریان فوق به شبکه عصبی ترکیبی MoBEL داده شد تا با در نظر گرفتن همبستگی بین وجه های بینایی و شنوایی و همجوشی اطلاعات در سطح ویژگی، کارایی سیستم بازشناسی هیجان را بهبود بخشد. یافته ها: نرخ بازشناسی هیجان در ویدیو با استفاده از مدل ارائه شده بر روی پایگاه داده eNterface’05 به طور میانگین 82 درصد شد. نتیجه گیری: نتایج تجربی در پایگاه داده مذکور نشان می دهد که کارکرد روش پیشنهادی بهتر از روش های استخراج ویژگی های دستی و سایر مدل های همجوشی در بازشناسی هیجان است.