ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن(مقاله علمی وزارت علوم)
حوزه های تخصصی:
در این مقاله یک روش جدید برای برچسب گذاری تصاویر موجود در متون علمی فارسی معرفی می شود. در اسناد و مقالات علمی، تصاویر حاوی اطلاعلات مهمی هستند و در بسیاری از موارد به تنهایی با بررسی آن ها می توان به ایده اصلی و یا نتایج مهم مقاله علمی پی برد، بدون اینکه لازم باشد کل مقاله را مطالعه کرد. به خاطر رشد روزافزون داده های تصویری، بازیابی تصاویر از اسناد علمی توجه زیادی را به خود جلب کرده و به یک موضوع روبه رشد در ادبیات تبدیل شده است. اولین قدم در بازیابی تصاویر تخصیص برچسب های توصیف کننده به هر تصویر است. در اینجا برای استخراج برچسب تصویر از متن سندی که تصویر به آن تعلق دارد، استفاده شده است. زیرنویس و قسمتی از متن سند که در آن به تصویر مورد نظر اشاره شده است، در نظر گرفته می شود. عبارات اسمی در متنِ همراه تصویر با استفاده از پنج روش متفاوتِ فراوانی عبارات در سند، معکوس فراوانی سند، فراوانی کلمه-معکوس فراوانی سند، شباهت کسینوسی عبارات با زیرنویس، و ترکیب روش فراوانی کلمه-معکوس فراوانی سند و شباهت کسینوسی با زیرنویس رتبه بندی می شوند. در هر روش، برچسب های انتخابی برای تصویر، عبارات اسمی با رتبه بالاتر در آن روش است. روش های معرفی شده با استفاده از داده آزمایشی از پایگاه اطلاعات علمی ایران (گنج) که منبع اصلی اسناد علمی فارسی است، ارزیابی می شوند. طبق نتایج به دست آمده در این تحقیق روش فراوانی کلمه-معکوس فراوانی سند بهترین روش برای برچسب زدن تصاویرموجود در اسناد علمی است.