شما این محصولات را انتخاب کرده اید

سبد خرید

شناسه پست: 16732
بازدید: 10

یک ربات خزنده وب، عنکبوت یا موتور جستجو محتوا را از سراسر اینترنت دانلود و فهرست می کند. هدف چنین رباتی این است که بیاموزد (تقریبا) هر صفحه وب در وب درباره چه چیزی است، به طوری که در صورت نیاز بتوان اطلاعات را بازیابی کرد. آنها را “خزنده های وب” می نامند زیرا خزیدن اصطلاح فنی برای دسترسی خودکار به یک وب سایت و به دست آوردن داده ها از طریق یک برنامه نرم افزاری است.

این ربات ها تقریبا همیشه توسط موتورهای جستجو اداره می شوند. با اعمال یک الگوریتم جستجو بر روی داده‌های جمع‌آوری‌شده توسط خزنده‌های وب، موتورهای جستجو می‌توانند لینک‌های مرتبطی را در پاسخ به پرسش‌های جستجوی کاربر ارائه دهند و فهرستی از صفحات وب را ایجاد کنند که پس از تایپ کاربر در Google یا Bing (یا موتور جستجوی دیگر) نشان داده می‌شوند. .

یک ربات خزنده وب مانند کسی است که تمام کتاب‌های یک کتابخانه نابسامان را مرور می‌کند و فهرست کارتی را جمع‌آوری می‌کند تا هر کسی که از کتابخانه بازدید می‌کند بتواند به سرعت و به راحتی اطلاعات مورد نیاز خود را پیدا کند. برای کمک به دسته‌بندی و مرتب‌سازی کتاب‌های کتابخانه بر اساس موضوع، سازمان‌دهنده عنوان، خلاصه و بخشی از متن داخلی هر کتاب را می‌خواند تا بفهمد درباره چیست.

با این حال، بر خلاف یک کتابخانه، اینترنت از انبوه کتاب‌های فیزیکی تشکیل نشده است، و این امر تشخیص اینکه آیا تمام اطلاعات لازم به درستی نمایه‌سازی شده‌اند یا اینکه مقادیر زیادی از آن نادیده گرفته شده‌اند، دشوار است. برای تلاش برای یافتن تمام اطلاعات مرتبطی که اینترنت ارائه می دهد، یک ربات خزنده وب با مجموعه خاصی از صفحات وب شناخته شده شروع می کند و سپس پیوندهای آن صفحات را به صفحات دیگر دنبال می کند، پیوندهای آن صفحات دیگر را به صفحات دیگر دنبال می کند و غیره. بر.

مشخص نیست که چه مقدار از اینترنت در دسترس عموم توسط ربات های موتور جستجو خزیده می شود. برخی منابع تخمین می‌زنند که تنها 40 تا 70 درصد اینترنت برای جستجو فهرست‌بندی می‌شود – و این میلیاردها صفحه وب است.

نمایه سازی جستجو چیست؟

نمایه سازی جستجو مانند ایجاد یک فهرست کارت کتابخانه برای اینترنت است به طوری که یک موتور جستجو می داند در کجای اینترنت می تواند اطلاعات را زمانی که شخص جستجو می کند، بازیابی کند. همچنین می توان آن را با نمایه پشت یک کتاب مقایسه کرد که تمام مکان های کتاب را که در آن موضوع یا عبارت خاصی ذکر شده است فهرست می کند.

نمایه سازی بیشتر بر روی متنی که در صفحه ظاهر می شود و بر روی فراداده*های صفحه ای که کاربران نمی بینند تمرکز می کند. هنگامی که اکثر موتورهای جستجو یک صفحه را ایندکس می کنند، تمام کلمات موجود در صفحه را به فهرست اضافه می کنند – به جز کلماتی مانند “a”، “an” و “the” در مورد گوگل. هنگامی که کاربران آن کلمات را جستجو می کنند، موتور جستجو فهرست تمام صفحاتی را که آن کلمات در آن ظاهر می شوند بررسی می کند و مرتبط ترین آنها را انتخاب می کند.

*در زمینه نمایه‌سازی جستجو، ابرداده داده‌ای است که به موتورهای جستجو می‌گوید یک صفحه وب درباره چیست. اغلب عنوان متا و توضیحات متا همان چیزی است که در صفحات نتایج موتور جستجو ظاهر می شود، برخلاف محتوای صفحه وب که برای کاربران قابل مشاهده است.

خزنده های وب چگونه کار می کنند؟

اینترنت دائما در حال تغییر و گسترش است. از آنجا که نمی توان تعداد کل صفحات وب را در اینترنت دانست، ربات های خزنده وب از یک seed یا لیستی از URL های شناخته شده شروع می شوند. آنها ابتدا صفحات وب را در آن URL ها می خزند. همانطور که آنها در آن صفحات وب می خزند، پیوندهایی به URL های دیگر پیدا می کنند و آنها را به لیست صفحاتی اضافه می کنند تا در مرحله بعدی خزیده شوند.

با توجه به تعداد زیادی از صفحات وب در اینترنت که می توانند برای جستجو فهرست شوند، این روند می تواند تقریباً به طور نامحدود ادامه یابد. با این حال، یک خزنده وب از سیاست‌های خاصی پیروی می‌کند که باعث می‌شود انتخابی‌تر در مورد اینکه کدام صفحات خزیده شود، به چه ترتیبی خزیده شود، و هر چند وقت یک‌بار باید دوباره آن‌ها را بخزد تا به‌روزرسانی‌های محتوا را بررسی کند.

اهمیت نسبی هر صفحه وب: اکثر خزنده های وب کل اینترنت در دسترس عموم را نمی خزند و قصد ندارند. درعوض، بر اساس تعداد صفحات دیگری که به آن صفحه پیوند می‌دهند، تعداد بازدیدکنندگانی که آن صفحه می‌گیرد و سایر عواملی که احتمال وجود اطلاعات مهم صفحه را نشان می‌دهند، تصمیم می‌گیرند که کدام صفحات ابتدا خزیده شوند.

ایده این است که صفحه وبی که توسط بسیاری از صفحات وب دیگر مورد استناد قرار می‌گیرد و بازدیدکنندگان زیادی دارد، احتمالاً حاوی اطلاعات معتبر و باکیفیت است، بنابراین بسیار مهم است که موتور جستجو آن را نمایه‌سازی کند – درست مانند یک کتابخانه. مطمئن باشید که نسخه‌های زیادی از یک کتاب را نگه می‌دارید که توسط افراد زیادی بررسی می‌شود.

بازدید مجدد از صفحات وب: محتوای موجود در وب به طور مداوم به روز می شود، حذف می شود یا به مکان های جدید منتقل می شود. خزنده های وب به طور دوره ای نیاز به بازدید مجدد از صفحات برای اطمینان از ایندکس شدن آخرین نسخه محتوا دارند.

الزامات Robots.txt: خزنده های وب همچنین بر اساس پروتکل robots.txt (همچنین به عنوان پروتکل حذف ربات شناخته می شود) تصمیم می گیرند که کدام صفحات را بخزند. قبل از خزیدن یک صفحه وب، آنها فایل robots.txt که توسط وب سرور آن صفحه میزبانی شده است را بررسی می کنند. فایل robots.txt یک فایل متنی است که قوانین دسترسی هر ربات به وب سایت یا برنامه میزبانی شده را مشخص می کند. این قوانین تعیین می‌کنند که ربات‌ها کدام صفحات را می‌توانند بخزند و کدام پیوندها را می‌توانند دنبال کنند. به عنوان مثال، فایل  robots.txt را بررسی کنید .

همه این عوامل در الگوریتم‌های اختصاصی که هر موتور جستجو در ربات‌های عنکبوتی خود ایجاد می‌کند، وزن متفاوتی دارند. خزنده های وب از موتورهای جستجوی مختلف کمی متفاوت رفتار می کنند، اگرچه هدف نهایی یکسان است: دانلود و فهرست بندی محتوا از صفحات وب.

چرا به خزنده های وب «عنکبوت» می گویند؟

اینترنت، یا حداقل بخشی که اکثر کاربران به آن دسترسی دارند، به عنوان وب جهانی نیز شناخته می شود – در واقع همان جایی است که قسمت «www» اکثر URL های وب سایت از آنجا می آید. طبیعی بود که ربات های موتورهای جستجو را «عنکبوت» بنامیم، زیرا آنها در سراسر وب می خزند، درست همانطور که عنکبوت های واقعی روی تار عنکبوت می خزند.

آیا ربات های خزنده وب همیشه باید اجازه دسترسی به ویژگی های وب را داشته باشند؟

این به ویژگی وب بستگی دارد و به عوامل مختلفی بستگی دارد. خزنده های وب برای فهرست بندی محتوا به منابع سرور نیاز دارند – آنها درخواست هایی را ارائه می دهند که سرور باید به آنها پاسخ دهد، درست مانند بازدید کاربر از یک وب سایت یا سایر ربات ها که به یک وب سایت دسترسی دارند. بسته به مقدار محتوا در هر صفحه یا تعداد صفحات سایت، ممکن است به نفع اپراتور وب سایت باشد که اجازه ایندکس کردن جستجو را زیاد ندهد، زیرا نمایه سازی بیش از حد می تواند بر سرور مازاد داشته باشد، هزینه های پهنای باند را افزایش دهد یا هر دو.

همچنین، توسعه‌دهندگان یا شرکت‌ها ممکن است نخواهند برخی از صفحات وب قابل کشف باشند، مگر اینکه قبلاً به کاربر پیوندی به صفحه داده شده باشد (بدون قرار دادن صفحه پشت دیوار پرداخت یا ورود به سیستم). یکی از نمونه‌های چنین موردی برای شرکت‌ها زمانی است که آنها یک صفحه فرود اختصاصی برای یک کمپین بازاریابی ایجاد می‌کنند، اما نمی‌خواهند کسی که توسط کمپین هدف قرار نمی‌گیرد به صفحه دسترسی پیدا کند. به این ترتیب آنها می توانند پیام رسانی را تنظیم کنند یا عملکرد صفحه را دقیقاً اندازه گیری کنند. در چنین مواردی شرکت می تواند یک برچسب “بدون شاخص” را به صفحه فرود اضافه کند و در نتایج موتور جستجو نشان داده نخواهد شد. آنها همچنین می‌توانند یک برچسب «عدم اجازه» را در صفحه یا فایل robots.txt اضافه کنند و عنکبوت‌های موتورهای جستجو اصلاً آن را نمی‌خزند.

صاحبان وب‌سایت‌ها ممکن است به دلایل مختلف دیگر نخواهند ربات‌های خزنده وب بخشی یا تمام سایت‌هایشان را بخزند. به عنوان مثال، وب سایتی که به کاربران امکان جستجو در سایت را می دهد ممکن است بخواهد صفحات نتایج جستجو را مسدود کند، زیرا این صفحات برای اکثر کاربران مفید نیستند. سایر صفحاتی که به صورت خودکار تولید می شوند و فقط برای یک کاربر یا چند کاربر خاص مفید هستند نیز باید مسدود شوند.

تفاوت بین خزیدن وب و خراش وب چیست؟

خراش دادن وب، خراش دادن داده یا خراش محتوا زمانی است که یک ربات محتوای یک وب سایت را بدون اجازه دانلود می کند، اغلب به قصد استفاده از آن محتوا برای اهداف مخرب.

اسکرپینگ وب معمولاً بسیار هدفمندتر از خزیدن وب است. اسکراپرهای وب ممکن است فقط به دنبال صفحات خاص یا وب سایت های خاص باشند، در حالی که خزنده های وب به دنبال پیوندها و خزیدن مداوم صفحات هستند.

همچنین، ربات‌های اسکریپر وب ممکن است فشاری را که به سرورهای وب وارد می‌کنند نادیده بگیرند، در حالی که خزنده‌های وب، به‌ویژه آنهایی که از موتورهای جستجوی اصلی هستند، از فایل robots.txt اطاعت می‌کنند و درخواست‌های خود را محدود می‌کنند تا بر سرور وب مازاد نشوند.

چگونه خزنده های وب روی سئو تاثیر می گذارند؟

SEO مخفف بهینه سازی برای موتورهای جستجو است، و نظم و انضباط آماده سازی محتوا برای نمایه سازی جستجو است به طوری که یک وب سایت بالاتر در نتایج موتورهای جستجو نشان داده شود.

اگر ربات‌های عنکبوتی یک وب‌سایت را بررسی نکنند، نمی‌توان آن را ایندکس کرد و در نتایج جستجو نشان داده نمی‌شود. به همین دلیل، اگر یک مالک وب سایت می خواهد ترافیک ارگانیک را از نتایج جستجو دریافت کند، بسیار مهم است که ربات های خزنده وب را مسدود نکند.

چه ربات های خزنده وب در اینترنت فعال هستند؟

ربات های موتورهای جستجوی اصلی به نام زیر هستند:

  • Google: Googlebot (در واقع دو خزنده، Googlebot Desktop و Googlebot Mobile، برای جستجوهای دسکتاپ و تلفن همراه)
  • بینگ: Bingbot
  • Yandex (موتور جستجوی روسی): Yandex Bot
  • بایدو (موتور جستجوی چینی): Baidu Spider

همچنین تعداد زیادی ربات خزنده وب کمتر رایج هستند که برخی از آنها با هیچ موتور جستجویی مرتبط نیستند.

چرا برای مدیریت ربات مهم است که خزیدن وب را در نظر بگیرد؟

ربات‌های بد می‌توانند آسیب‌های زیادی را به همراه داشته باشند، از تجربه ضعیف کاربر گرفته تا خرابی سرور و سرقت اطلاعات. با این حال، در مسدود کردن ربات‌های بد، مهم است که همچنان به ربات‌های خوب، مانند خزنده‌های وب، اجازه دسترسی به ویژگی‌های وب را بدهید. مدیریت ربات  به ربات‌های خوب اجازه می‌دهد تا همچنان به وب‌سایت‌ها دسترسی داشته باشند و در عین حال ترافیک ربات‌های مخرب را کاهش دهند . این محصول یک لیست مجاز به‌روزرسانی خودکار از ربات‌های خوب ، مانند خزنده‌های وب، برای اطمینان از مسدود نشدن آنها نگهداری می‌کند. سازمان‌های کوچک‌تر می‌توانند سطح مشابهی از دید و کنترل بر ترافیک ربات‌های خود را با حالت مبارزه با ربات Super Bot که در برنامه‌های Cloudflare Pro و Business موجود است، به دست آورند.