آزمایشهایی درباره تأثیر تحلیل گفتمان بر الگوریتمهای ردهبندی و بازیابی اطلاعات
حوزه های تخصصی:
پژوهشگران نظامهای نمایهسازی و بازیابی، بهمنظور بهبود نتایج [جستجو]، همواره از گنجاندن اطلاعات بافتاری بیشتر، پشتیبانی کردهاند. افزایش شمار پایگاههای اطلاعاتی متن کامل و پیشرفتهای به دست آمده در ظرفیت ذخیرهسازی رایانهای، تحلیل متن را با بهرهگیری از دانش زبانشناسی و فرا- زبانشناسی امکانپذیر ساخته است. از میانه دهه 1980، پژوهشگران توجه و گرایش بیشتری به بافتار پیدا کردهاند، و تحلیل گفتمان نقش مهمتری یافته است. هدف پژوهش توصیف شده در این مقاله، بررسی این مسئله است که آیا متغیرهای گفتمان، بر الگوریتمهای نوین بازیابی و ردهبندی اطلاعات اثر میگذارند یا نه. بهمنظور ارزیابی این فرضیه، چارچوبی عملی برای تحلیل اطلاعات در محیطی خودکار پیشنهاد شده است. در این محیط، انـ گرامها[4] (فیلترکردن) و کیـ مینز (میانگین عددkا) و الگوریتمهای ردهبندی و چن با زیرمجموعههایی از مدارک، برپایه متغیرهای گفتمانی «گونه»، «سیاق»، «اصطلاحشناسی حوزه» و «ساختار مدرک» مورد آزمون قرار گرفتند. نتایج حاصل از مطالعه الگوریتمهای زیرمجموعههای مختلف، با ساختار اطلاعات « سرعنوانهای موضوعی پزشکی» (مِش) مقایسه شد. این نتایج نشان میدهد که انـ گرامها وابستگی واضحی به متغیرهای گفتمان ندارند؛ هرچند که الگوریتم ردهبندی کیـ مینز چنین وابستگی را، البته فقط در «اصطلاحشناسی حوزه» و «ساختار مدرک» نشان میدهد، و سرانجام اینکه «الگوریتم چن» وابستگی مشخصی به همه متغیرهای گفتمان دارد. از این اطلاعات میتوان برای طراحی بهتر الگوریتمهای ردهبندی که باید متغیرهای گفتمان را مورد توجه قرار دهند، استفاده کرد. نتایج فرعی دیگری نیز از این پژوهش حاصل شده است که در مقاله ارائه میگردد.