وب به واسطه ویژگی چند رسانه ای، کاربران فراوانی در اینترنت دارد. شمار وب سایت ها روز به روز افزایش مییابد و انبوهی از اطلاعات در وب منتشر میشود. در چنین وضعیتی مهم ترین مسئله، سازماندهی و مدیریت اطلاعات منتشر شده است: زیرا کیفیت بازیابی در گرو سازماندهی و ذخیره سازی مناسب است. موتورهای کاوش، با نمایه سازی و ذخیره اطلاعات نمایه شده در پایگاه های خود امکان جست و جو، بازیابی، رتبه بندی، و نمایش اطلاعات وب را فراهم میآورند. در این مقاله سعی بر آن است تا ضمن معرفی مختصر برخی ابزارهای کاوش، به تشریح رویکردهای موجود محتوا محوری، استناد محوری، و معنا محوری، در زمینه نمایه سازی خودکار وب در موتورهای کاوش پرداخته شود. در نهایت حرکت به سمت داده های ساختار یافته و وب معنایی با تکنولوژیهای XML و RDF مورد بررسی قرار میگیرد.