آرشیو

آرشیو شماره ها:
۱۱۷

چکیده

هدف این پژوهش ابداع و معرفی الگوریتمی نو برای استخراج چهریزه هاست که امکان شناسایی تجربی چهریزه ها را با کمک پشتوانه انتشاراتی فراهم می کند. الگوریتم پیشنهادی بر مبنای دو ایده شکل گرفته است: ایده اول اینکه چهریزه در بافت بروز پیدا می کند. بنابراین، برای تشخیص چهریزه در یک بدنه متنی بایستی بافت یا بستر آن مورد بررسی قرار گیرد و ایده دوم این است که چهریزه نقطه تمرکز در یک درخت واژگانی است که نه بسیار عام و نه بسیار خاص است. در حوزه پزشکی، دامنه زنان و زایمان به عنوان بستر آزمون انتخاب گردید. سه پیکره متنی از درون پشتوانه انتشاراتی انتخاب شد. پیکره بستر، از چکیده و عنوان مجموعه مقالات موجود در ۲۰ مجله برتر حوزه انتخاب شد که در برگیرنده ۱۶۷۰۷۱ سند بود. پیکره دوم، پیکره منشأ بود که ۲۰۰۰ مقاله به صورت تصادفی از پیکره بستر انتخاب شد. پیکره سوم، پیکره واژگانی است که با استفاده از یک سرویس تحت وب و معیار رتبه بندی واژگان LIDF-value استخراج گردید. خروجی حاصل دربرگیرنده ۵۱۴ واژه بود. واژگان تکراری حذف شدند و سرانجام، ۴۸۰ واژه مهم شناسایی شد. سپس، واژگان در پیکره بستر با کمک مجموعه راهنما یعنی «مش» بسط داده شد و پس از آن، بر اساس دو شرط انتقال مبتنی بر تکرار یعنی بیشتر بودن اسناد مرتبط با واژه در بستر نسبت به منشأ و انتقال مبتنی بر رتبه یعنی رشد رتبه موجود واژه در پیکره بستر نسبت به منشأ که نشان دهنده عام شدن واژه است، چهریزه های کاندید استخراج شدند. سرانجام، با استفاده از سه قاعده اخص بودن، جایگزنی و اعم بودن، چهریزه های شناسایی شده اصلاح و نام گذاری شدند. در نهایت، ۲۶ چهریزه به عنوان چهریزه های حوزه زنان و زایمان شناسایی شدند. با مقایسه الگوریتم پیشنهادی با دیگر الگوریتم ها مشخص شد که ایجاد سه افراز (افراز منشأ و بدنه متنی و افراز برای شناسایی واژگان مهم) و مقایسه رفتار واژه در آن ها و سپس، ایجاد درخت بر اساس چهریزه های کاندید، یعنی ترکیب رویکرد آماری و هرس درخت می تواند نتایج مناسب تری نسبت به رویکرد صرفاً آماری یا هرس درخت داشته است. همچنین، مقایسه چهریزه های خروجی از الگوریتم و چهریزه های سنتی در این زمینه نشان داد که چهریزه های خروجی الگوریتم، خرد تر و برای مرور در ابزارهای بازیابی اطلاعات مفید تر هستند. همچنین، در این پژوهش مشخص شد که چهریزه های دامنه تخصصی از چهریزه های عمومی در حوزه پزشکی متفاوت است و مستقل از آن ها قابل شناسایی و تعریف است، اما نمی توان نتایج را به تمامی دامنه های پزشکی تعمیم داد و نیاز است که پژوهش هایی در دیگر حوزه ها صورت گیرد.

تبلیغات