یک ربات خزنده وب، عنکبوت یا موتور جستجو محتوا را از سراسر اینترنت دانلود و فهرست می کند. هدف چنین رباتی این است که بیاموزد (تقریبا) هر صفحه وب در وب درباره چه چیزی است، به طوری که در صورت نیاز بتوان اطلاعات را بازیابی کرد. آنها را “خزنده های وب” می نامند زیرا خزیدن اصطلاح فنی برای دسترسی خودکار به یک وب سایت و به دست آوردن داده ها از طریق یک برنامه نرم افزاری است.
این ربات ها تقریبا همیشه توسط موتورهای جستجو اداره می شوند. با اعمال یک الگوریتم جستجو بر روی دادههای جمعآوریشده توسط خزندههای وب، موتورهای جستجو میتوانند لینکهای مرتبطی را در پاسخ به پرسشهای جستجوی کاربر ارائه دهند و فهرستی از صفحات وب را ایجاد کنند که پس از تایپ کاربر در Google یا Bing (یا موتور جستجوی دیگر) نشان داده میشوند. .
یک ربات خزنده وب مانند کسی است که تمام کتابهای یک کتابخانه نابسامان را مرور میکند و فهرست کارتی را جمعآوری میکند تا هر کسی که از کتابخانه بازدید میکند بتواند به سرعت و به راحتی اطلاعات مورد نیاز خود را پیدا کند. برای کمک به دستهبندی و مرتبسازی کتابهای کتابخانه بر اساس موضوع، سازماندهنده عنوان، خلاصه و بخشی از متن داخلی هر کتاب را میخواند تا بفهمد درباره چیست.
با این حال، بر خلاف یک کتابخانه، اینترنت از انبوه کتابهای فیزیکی تشکیل نشده است، و این امر تشخیص اینکه آیا تمام اطلاعات لازم به درستی نمایهسازی شدهاند یا اینکه مقادیر زیادی از آن نادیده گرفته شدهاند، دشوار است. برای تلاش برای یافتن تمام اطلاعات مرتبطی که اینترنت ارائه می دهد، یک ربات خزنده وب با مجموعه خاصی از صفحات وب شناخته شده شروع می کند و سپس پیوندهای آن صفحات را به صفحات دیگر دنبال می کند، پیوندهای آن صفحات دیگر را به صفحات دیگر دنبال می کند و غیره. بر.
مشخص نیست که چه مقدار از اینترنت در دسترس عموم توسط ربات های موتور جستجو خزیده می شود. برخی منابع تخمین میزنند که تنها 40 تا 70 درصد اینترنت برای جستجو فهرستبندی میشود – و این میلیاردها صفحه وب است.
نمایه سازی جستجو چیست؟
نمایه سازی جستجو مانند ایجاد یک فهرست کارت کتابخانه برای اینترنت است به طوری که یک موتور جستجو می داند در کجای اینترنت می تواند اطلاعات را زمانی که شخص جستجو می کند، بازیابی کند. همچنین می توان آن را با نمایه پشت یک کتاب مقایسه کرد که تمام مکان های کتاب را که در آن موضوع یا عبارت خاصی ذکر شده است فهرست می کند.
نمایه سازی بیشتر بر روی متنی که در صفحه ظاهر می شود و بر روی فراداده*های صفحه ای که کاربران نمی بینند تمرکز می کند. هنگامی که اکثر موتورهای جستجو یک صفحه را ایندکس می کنند، تمام کلمات موجود در صفحه را به فهرست اضافه می کنند – به جز کلماتی مانند “a”، “an” و “the” در مورد گوگل. هنگامی که کاربران آن کلمات را جستجو می کنند، موتور جستجو فهرست تمام صفحاتی را که آن کلمات در آن ظاهر می شوند بررسی می کند و مرتبط ترین آنها را انتخاب می کند.
*در زمینه نمایهسازی جستجو، ابرداده دادهای است که به موتورهای جستجو میگوید یک صفحه وب درباره چیست. اغلب عنوان متا و توضیحات متا همان چیزی است که در صفحات نتایج موتور جستجو ظاهر می شود، برخلاف محتوای صفحه وب که برای کاربران قابل مشاهده است.
خزنده های وب چگونه کار می کنند؟
اینترنت دائما در حال تغییر و گسترش است. از آنجا که نمی توان تعداد کل صفحات وب را در اینترنت دانست، ربات های خزنده وب از یک seed یا لیستی از URL های شناخته شده شروع می شوند. آنها ابتدا صفحات وب را در آن URL ها می خزند. همانطور که آنها در آن صفحات وب می خزند، پیوندهایی به URL های دیگر پیدا می کنند و آنها را به لیست صفحاتی اضافه می کنند تا در مرحله بعدی خزیده شوند.
با توجه به تعداد زیادی از صفحات وب در اینترنت که می توانند برای جستجو فهرست شوند، این روند می تواند تقریباً به طور نامحدود ادامه یابد. با این حال، یک خزنده وب از سیاستهای خاصی پیروی میکند که باعث میشود انتخابیتر در مورد اینکه کدام صفحات خزیده شود، به چه ترتیبی خزیده شود، و هر چند وقت یکبار باید دوباره آنها را بخزد تا بهروزرسانیهای محتوا را بررسی کند.
اهمیت نسبی هر صفحه وب: اکثر خزنده های وب کل اینترنت در دسترس عموم را نمی خزند و قصد ندارند. درعوض، بر اساس تعداد صفحات دیگری که به آن صفحه پیوند میدهند، تعداد بازدیدکنندگانی که آن صفحه میگیرد و سایر عواملی که احتمال وجود اطلاعات مهم صفحه را نشان میدهند، تصمیم میگیرند که کدام صفحات ابتدا خزیده شوند.
ایده این است که صفحه وبی که توسط بسیاری از صفحات وب دیگر مورد استناد قرار میگیرد و بازدیدکنندگان زیادی دارد، احتمالاً حاوی اطلاعات معتبر و باکیفیت است، بنابراین بسیار مهم است که موتور جستجو آن را نمایهسازی کند – درست مانند یک کتابخانه. مطمئن باشید که نسخههای زیادی از یک کتاب را نگه میدارید که توسط افراد زیادی بررسی میشود.
بازدید مجدد از صفحات وب: محتوای موجود در وب به طور مداوم به روز می شود، حذف می شود یا به مکان های جدید منتقل می شود. خزنده های وب به طور دوره ای نیاز به بازدید مجدد از صفحات برای اطمینان از ایندکس شدن آخرین نسخه محتوا دارند.
الزامات Robots.txt: خزنده های وب همچنین بر اساس پروتکل robots.txt (همچنین به عنوان پروتکل حذف ربات شناخته می شود) تصمیم می گیرند که کدام صفحات را بخزند. قبل از خزیدن یک صفحه وب، آنها فایل robots.txt که توسط وب سرور آن صفحه میزبانی شده است را بررسی می کنند. فایل robots.txt یک فایل متنی است که قوانین دسترسی هر ربات به وب سایت یا برنامه میزبانی شده را مشخص می کند. این قوانین تعیین میکنند که رباتها کدام صفحات را میتوانند بخزند و کدام پیوندها را میتوانند دنبال کنند. به عنوان مثال، فایل robots.txt را بررسی کنید .
همه این عوامل در الگوریتمهای اختصاصی که هر موتور جستجو در رباتهای عنکبوتی خود ایجاد میکند، وزن متفاوتی دارند. خزنده های وب از موتورهای جستجوی مختلف کمی متفاوت رفتار می کنند، اگرچه هدف نهایی یکسان است: دانلود و فهرست بندی محتوا از صفحات وب.
چرا به خزنده های وب «عنکبوت» می گویند؟
اینترنت، یا حداقل بخشی که اکثر کاربران به آن دسترسی دارند، به عنوان وب جهانی نیز شناخته می شود – در واقع همان جایی است که قسمت «www» اکثر URL های وب سایت از آنجا می آید. طبیعی بود که ربات های موتورهای جستجو را «عنکبوت» بنامیم، زیرا آنها در سراسر وب می خزند، درست همانطور که عنکبوت های واقعی روی تار عنکبوت می خزند.
آیا ربات های خزنده وب همیشه باید اجازه دسترسی به ویژگی های وب را داشته باشند؟
این به ویژگی وب بستگی دارد و به عوامل مختلفی بستگی دارد. خزنده های وب برای فهرست بندی محتوا به منابع سرور نیاز دارند – آنها درخواست هایی را ارائه می دهند که سرور باید به آنها پاسخ دهد، درست مانند بازدید کاربر از یک وب سایت یا سایر ربات ها که به یک وب سایت دسترسی دارند. بسته به مقدار محتوا در هر صفحه یا تعداد صفحات سایت، ممکن است به نفع اپراتور وب سایت باشد که اجازه ایندکس کردن جستجو را زیاد ندهد، زیرا نمایه سازی بیش از حد می تواند بر سرور مازاد داشته باشد، هزینه های پهنای باند را افزایش دهد یا هر دو.
همچنین، توسعهدهندگان یا شرکتها ممکن است نخواهند برخی از صفحات وب قابل کشف باشند، مگر اینکه قبلاً به کاربر پیوندی به صفحه داده شده باشد (بدون قرار دادن صفحه پشت دیوار پرداخت یا ورود به سیستم). یکی از نمونههای چنین موردی برای شرکتها زمانی است که آنها یک صفحه فرود اختصاصی برای یک کمپین بازاریابی ایجاد میکنند، اما نمیخواهند کسی که توسط کمپین هدف قرار نمیگیرد به صفحه دسترسی پیدا کند. به این ترتیب آنها می توانند پیام رسانی را تنظیم کنند یا عملکرد صفحه را دقیقاً اندازه گیری کنند. در چنین مواردی شرکت می تواند یک برچسب “بدون شاخص” را به صفحه فرود اضافه کند و در نتایج موتور جستجو نشان داده نخواهد شد. آنها همچنین میتوانند یک برچسب «عدم اجازه» را در صفحه یا فایل robots.txt اضافه کنند و عنکبوتهای موتورهای جستجو اصلاً آن را نمیخزند.
صاحبان وبسایتها ممکن است به دلایل مختلف دیگر نخواهند رباتهای خزنده وب بخشی یا تمام سایتهایشان را بخزند. به عنوان مثال، وب سایتی که به کاربران امکان جستجو در سایت را می دهد ممکن است بخواهد صفحات نتایج جستجو را مسدود کند، زیرا این صفحات برای اکثر کاربران مفید نیستند. سایر صفحاتی که به صورت خودکار تولید می شوند و فقط برای یک کاربر یا چند کاربر خاص مفید هستند نیز باید مسدود شوند.
تفاوت بین خزیدن وب و خراش وب چیست؟
خراش دادن وب، خراش دادن داده یا خراش محتوا زمانی است که یک ربات محتوای یک وب سایت را بدون اجازه دانلود می کند، اغلب به قصد استفاده از آن محتوا برای اهداف مخرب.
اسکرپینگ وب معمولاً بسیار هدفمندتر از خزیدن وب است. اسکراپرهای وب ممکن است فقط به دنبال صفحات خاص یا وب سایت های خاص باشند، در حالی که خزنده های وب به دنبال پیوندها و خزیدن مداوم صفحات هستند.
همچنین، رباتهای اسکریپر وب ممکن است فشاری را که به سرورهای وب وارد میکنند نادیده بگیرند، در حالی که خزندههای وب، بهویژه آنهایی که از موتورهای جستجوی اصلی هستند، از فایل robots.txt اطاعت میکنند و درخواستهای خود را محدود میکنند تا بر سرور وب مازاد نشوند.
چگونه خزنده های وب روی سئو تاثیر می گذارند؟
SEO مخفف بهینه سازی برای موتورهای جستجو است، و نظم و انضباط آماده سازی محتوا برای نمایه سازی جستجو است به طوری که یک وب سایت بالاتر در نتایج موتورهای جستجو نشان داده شود.
اگر رباتهای عنکبوتی یک وبسایت را بررسی نکنند، نمیتوان آن را ایندکس کرد و در نتایج جستجو نشان داده نمیشود. به همین دلیل، اگر یک مالک وب سایت می خواهد ترافیک ارگانیک را از نتایج جستجو دریافت کند، بسیار مهم است که ربات های خزنده وب را مسدود نکند.
چه ربات های خزنده وب در اینترنت فعال هستند؟
ربات های موتورهای جستجوی اصلی به نام زیر هستند:
- Google: Googlebot (در واقع دو خزنده، Googlebot Desktop و Googlebot Mobile، برای جستجوهای دسکتاپ و تلفن همراه)
- بینگ: Bingbot
- Yandex (موتور جستجوی روسی): Yandex Bot
- بایدو (موتور جستجوی چینی): Baidu Spider
همچنین تعداد زیادی ربات خزنده وب کمتر رایج هستند که برخی از آنها با هیچ موتور جستجویی مرتبط نیستند.
چرا برای مدیریت ربات مهم است که خزیدن وب را در نظر بگیرد؟
رباتهای بد میتوانند آسیبهای زیادی را به همراه داشته باشند، از تجربه ضعیف کاربر گرفته تا خرابی سرور و سرقت اطلاعات. با این حال، در مسدود کردن رباتهای بد، مهم است که همچنان به رباتهای خوب، مانند خزندههای وب، اجازه دسترسی به ویژگیهای وب را بدهید. مدیریت ربات به رباتهای خوب اجازه میدهد تا همچنان به وبسایتها دسترسی داشته باشند و در عین حال ترافیک رباتهای مخرب را کاهش دهند . این محصول یک لیست مجاز بهروزرسانی خودکار از رباتهای خوب ، مانند خزندههای وب، برای اطمینان از مسدود نشدن آنها نگهداری میکند. سازمانهای کوچکتر میتوانند سطح مشابهی از دید و کنترل بر ترافیک رباتهای خود را با حالت مبارزه با ربات Super Bot که در برنامههای Cloudflare Pro و Business موجود است، به دست آورند.