چکیده

پژوهشگران نظام‌های نمایه‌سازی و بازیابی، به‌منظور بهبود نتایج [جستجو]، همواره از گنجاندن اطلاعات بافتاری بیشتر، پشتیبانی کرده‌اند. افزایش شمار پایگاه‌های اطلاعاتی متن کامل و پیشرفت‌های به دست آمده در ظرفیت ذخیره‌سازی رایانه‌ای، تحلیل متن را با بهره‌گیری از دانش زبان‌شناسی و فرا- زبان‌شناسی امکان‌پذیر ساخته است. از میانه دهه 1980، پژوهشگران توجه و گرایش بیشتری به بافتار پیدا کرده‌اند، و تحلیل گفتمان نقش مهم‌تری یافته است. هدف پژوهش توصیف شده در این مقاله، بررسی این مسئله است که آیا متغیرهای گفتمان، بر الگوریتم‌های نوین بازیابی و رده‌بندی اطلاعات اثر می‌گذارند یا نه. به‌منظور ارزیابی این فرضیه، چارچوبی عملی برای تحلیل اطلاعات در محیطی خودکار پیشنهاد شده است. در این محیط، ان‌ـ گرام‌ها[4] (فیلترکردن) و  کی‌ـ مینز (میانگین عددkا) و الگوریتم‌های رده‌بندی  و چن با زیرمجموعه‌هایی از مدارک، برپایه متغیرهای گفتمانی «گونه»، «سیاق»، «اصطلاح‌شناسی حوزه» و «ساختار مدرک» مورد آزمون قرار گرفتند. نتایج حاصل از مطالعه الگوریتم‌های زیرمجموعه‌های مختلف، با ساختار اطلاعات « سرعنوان‌های موضوعی پزشکی» (مِش) مقایسه شد. این نتایج نشان می‌دهد که ان‌ـ گرام‌ها وابستگی واضحی به متغیرهای گفتمان ندارند؛ هرچند که الگوریتم رده‌بندی کی‌ـ مینز چنین وابستگی را، البته فقط در «اصطلاح‌شناسی حوزه» و «ساختار مدرک» نشان می‌دهد، و سرانجام این‌که «الگوریتم چن» وابستگی مشخصی به همه متغیرهای گفتمان دارد. از این اطلاعات می‌توان برای طراحی بهتر الگوریتم‌های رده‌بندی که باید متغیرهای گفتمان را مورد توجه قرار دهند، استفاده کرد. نتایج فرعی دیگری نیز از این پژوهش حاصل شده است که در مقاله ارائه می‌گردد.

تبلیغات

آرشیو

آرشیو شماره ها:
۹۸