مطالب مرتبط با کلیدواژه

نمایه سازی خودکار


۱.

مروری بر رویکردهای نمایه سازی خودکار وب : محتوا محوری، استناد محوری و معنا محوری

نویسنده:

کلیدواژه‌ها: وب نمایه سازی خودکار

حوزه‌های تخصصی:
  1. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم کتابداری نمایه سازی و چکیده نویسی
  2. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم اطلاع رسانی شبکه های اطلاعاتی و کامپیوتری وب
تعداد بازدید : ۲۲۶۴ تعداد دانلود : ۱۱۲۶
وب به واسطه ویژگی چند رسانه ای، کاربران فراوانی در اینترنت دارد. شمار وب سایت ها روز به روز افزایش مییابد و انبوهی از اطلاعات در وب منتشر میشود. در چنین وضعیتی مهم ترین مسئله، سازماندهی و مدیریت اطلاعات منتشر شده است: زیرا کیفیت بازیابی در گرو سازماندهی و ذخیره سازی مناسب است. موتورهای کاوش، با نمایه سازی و ذخیره اطلاعات نمایه شده در پایگاه های خود امکان جست و جو، بازیابی، رتبه بندی، و نمایش اطلاعات وب را فراهم میآورند. در این مقاله سعی بر آن است تا ضمن معرفی مختصر برخی ابزارهای کاوش، به تشریح رویکردهای موجود محتوا محوری، استناد محوری، و معنا محوری، در زمینه نمایه سازی خودکار وب در موتورهای کاوش پرداخته شود. در نهایت حرکت به سمت داده های ساختار یافته و وب معنایی با تکنولوژیهای XML و RDF مورد بررسی قرار میگیرد.
۲.

شناسایی واژه ها ی غیر مفهومی (رایج) در نمایه سازی خودکار مدارک فارسی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: نمایه سازی خودکار واژه های غیرمفهومی واژه های بازدارنده ساخت واژگانی زبان فارسی

حوزه‌های تخصصی:
  1. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم کتابداری نمایه سازی و چکیده نویسی
  2. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم اطلاع رسانی خدمات اطلاع رسانی مدیریت اطلاعات سازماندهی اطلاعات
  3. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم اطلاع رسانی خدمات اطلاع رسانی مدیریت اطلاعات ذخیره و بازیابی اطلاعات
تعداد بازدید : ۱۶۶۱ تعداد دانلود : ۸۷۶
پژوهش حاضر با هدف شناسایی واژه­های غیرمفهومی در زبان فارسی و تهیه سیاهه­ای از این واژه­ها برای نمایه­سازی خودکار متنهای فارسی در رشته­های روانشناسی، علوم­تربیتی و کتابداری و اطلاع­رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته­است. جامعه آماری این پژوهش را مقاله های مندرج در آخرین شماره منتشر­شده در مجله های علمی و پژوهشی ِ رشته­های علـوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی در سال 1385 تشکیل میدهد. نمونه شامل 63 مقاله است. گردآوری داده­ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه­شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به­عنوان واژه نمایه­ها ظاهر نمی­شوند، بنابراین، آنها را می­توان واژه­های غیرمفهومی یا به اصطلاح واژه­های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژه­های غیرمفهومی تشکیل می­دهد. 3- واژه­های بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل می­داد، 97280 واژه که 94/38% کل واژه ها را شامل می­شود، جزء واژه­های بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه­های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه­ها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه می­باشند
۳.

کاربرد و تعدیل قانون زیف و الگوی آماری زو در بازشناسی واژه های بازدارنده زبان فارسی با استفاده از خوشه زبانی مقالات علمی- پژوهشی رشته کتابداری و اطلاع رسانی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: نمایه سازی خودکار واژه های بازدارنده قانون زیف بسامد واژگانی الگوی آماری زو

حوزه‌های تخصصی:
  1. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم کتابداری پژوهش های کتابداری،روش پژوهش در کتابداری
  2. حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی علوم کتابداری نمایه سازی و چکیده نویسی
تعداد بازدید : ۱۰۰۱ تعداد دانلود : ۵۶۵
هدف: شناسایی و استخراج سیاهه هایی نظام مند از واژه های بازدارنده به منظور استفاده در نمایه سازی خودکار متن های فارسی رشته کتابداری و اطلاع رسانی روش: روش تحلیل محتوا است. جامعه پژوهش، 56 مقاله بودند که 20 مقاله با روش نمونه گیری تصادفی ساده انتخاب شدند. یافته ها: از مجموع 15557 واژه موجود در متن مقالات، مطابق با الگوی زو، قبل از تعدیل واژه ها، 1368 و بعد از تعدیل، 468 واژه؛ مطابق قانون زیف نیز قبل از تعدیل، 217 و بعد از تعدیل، 607 واژه به عنوان واژه بازدارنده شناخته شدند. هم چنین از مجموع 1989 واژه موجود در چکیده مقالات، مطابق با الگوی زو قبل از تعدیل واژه ها، 148 و بعد از تعدیل، 173 واژه و بر اساس قانون زیف، قبل از تعدیل60 و بعد از تعدیل، 186 واژه به عنوان واژه بازدارنده استخراج شدند. در هر دو روش رابطه مستقیمی بین بسامد واژه ها و احتمال بازدارنده بودن آن ها مشاهده شد. بالاترین درصد واژه های بازدارنده (44/39 درصد) بدون احتساب بسامد، در متن مقالات و با کاربرد الگوی آماری زو به دست آمد. نتایج این پژوهش به افزایش کارایی، کاهش حجم فایل درونداد و صرفه جویی در زمان و هزینه ذخیره و بازیابی اطلاعات منجر می شود.
۴.

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: زبان فارسی نمایه سازی خودکار مدل شکاف – گلچین.

حوزه‌های تخصصی:
تعداد بازدید : ۱۰۴۶ تعداد دانلود : ۵۰۲
هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدل های بومی نمایه سازی خودکار را با توجه به ویژگی های هر زبان طراحی کرد. این مدل ها باید به گونه ای طراحی شود که جامعیت و مانعیت نمایه سازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحله ای شکاف – گلچین برای نمایه سازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده می شود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژه های نویسنده سنجیده خواهد شد. روش: مدل نمایه سازی خودکار فارسی به همراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می شود که برای تعیین درصد همخوانی بین نمایه سازان مورد استفاده قرار می گیرد. برای این کار، میزان همخوانی اصطلاحات نمایه ای که از پیاده سازی الگوریتم این مدل حاصل شده اند، با کلیدواژه های نویسندگان مقالات بررسی می گردد. یافته ها: یافته ها نشان داد که در 90 درصد از موارد، اصطلاحی که این مدل در یک مقاله به عنوان پروزن ترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژه نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژه های نویسندگان 76 درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر می رسد. اصالت/ارزش: ارزش اولیه این کار پرداختن به نمایه سازی خودکار با توجه به ویژگی های زبان فارسی است. برای پیاده سازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبان های برنامه نویسی پشتیبانی می شود و نیاز به نصب و استفاده از جدول های بانک اطلاعاتی را برای پردازش متن کاهش می دهد. همچنین، مشکل تعیین آستانه بالایی اصطلاحات اصلی را حل می کند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین می کند؛ به گونه ای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایه سازی را تضمین می کند.