روبوتس یا همان robots.txt، یک فایل متنی ساده در ریشهٔ هاست شماست که نقش «چراغ راهنمای خزش» را برای موتورهای جستجو ایفا می‌کند. این فایل robots.txt به ربات‌ها (مانند گوگل‌بات) می‌گوید که اجازهٔ ورود به کدام بخش‌های سایت را دارند و از کدام بخش‌ها باید دوری کنند. مسیر خواندن این فایل روبوتس به این صورت است که موتورهای جستجو به محض ورود به دامنهٔ شما، اولین درخواست خود را به آدرس yourdomain.com/robots.txt ارسال کرده و دستورات درون آن را بر اساس پروتکل استاندارد (شناسایی عامل کاربر با User-agent و دستورات Disallow و Allow) پردازش می‌کنند. توجه داشته باشید که فایل robots.txt یک «درخواست» است نه «دیوار آتش»؛ ربات‌های خوب از آن اطاعت می‌کنند، اما برای حذف کامل یک صفحه از نتایج گوگل، باید از متاتگ noindex استفاده کنید. به‌طور خلاصه، robots.txt همان روباتس یا روبوتس است که مدیریت خزش را در دست دارد.

📋 ۱۰ کد آماده و پرکاربرد robots.txt
مخصوص انواع سایت‌ها

۱. دسترسی کامل (باز بودن مطلق)

User-agent: *
Disallow:

Sitemap: https://yourdomain.com/sitemap.xml
کاربرد و توضیح خط‌به‌خط (در فایل robots.txt):
User-agent: * → اعمال قوانین برای همه ربات‌ها.
Disallow: → خالی یعنی هیچ مسیری ممنوع نیست.
Sitemap: → آدرس نقشهٔ سایت برای کشف سریع‌تر.
✔ مناسب سایت‌های عمومی، خبری و شرکتی.

۲. بستن کامل سایت (توسعه و هاست موقت)

User-agent: *
Disallow: /

Sitemap: https://yourdomain.com/sitemap.xml
کاربرد و توضیح خط‌به‌خط:
Disallow: / → کل دایرکتوری ریشه بسته می‌شود.
✔ فقط برای سایت‌های در دست ساخت.

۳. مسدودسازی پوشه‌های مدیریتی وردپرس

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /includes/
Disallow: /cgi-bin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://yourdomain.com/sitemap.xml
کاربرد و توضیح خط‌به‌خط:
Allow: admin-ajax.php → استثنا برای عملکرد افزونه‌ها.
✔ ضروری برای تمام سایت‌های وردپرسی.

۴. مسدودسازی ربات‌های مزاحم (Ahrefs و SEMrush)

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /
کاربرد: کاهش فشار سرور با مسدود کردن ربات‌های تحلیل بک‌لینک.
✔ مناسب سرورهای ضعیف.

۵. مسدودسازی پارامترهای فیلتر و مرتب‌سازی

User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Disallow: /*?tag=

Sitemap: https://yourdomain.com/sitemap.xml
Disallow: /*?sort= → هر آدرسی با پارامتر sort بسته شود.
✔ عالی برای فروشگاه‌های آنلاین.

۶. ایجاد تاخیر در خزش (Crawl-delay)

User-agent: *
Crawl-delay: 5
Disallow:

Sitemap: https://yourdomain.com/sitemap.xml
Crawl-delay: 5 → ۵ ثانیه مکث بین درخواست‌ها.
⚠️ گوگل پیروی نمی‌کند، از Search Console استفاده کنید.
✔ برای سرورهای با منابع محدود.

۷. مسدودسازی ربات تصویر گوگل

User-agent: Googlebot-Image
Disallow: /

User-agent: *
Allow: /
Googlebot-Image → فقط خزش تصاویر متوقف می‌شود.
✔ صرفه‌جویی در پهنای باند.

۸. بستن تمام صفحات دارای کوئری (?)

User-agent: *
Disallow: /*?

Sitemap: https://yourdomain.com/sitemap.xml
Disallow: /*? → یک خط برای حذف همه صفحات داینامیک.
✔ جلوگیری از محتوای تکراری.

۹. مسدودسازی پوشه‌های کش و بک‌آپ

User-agent: *
Disallow: /temp/
Disallow: /cache/
Disallow: /backup/
Disallow: /tmp/

Sitemap: https://yourdomain.com/sitemap.xml
temp/ , cache/ , backup/ → محتوای بی‌ارزش برای خزش.
✔ حفظ بودجه خزش.

۱۰. مسدودسازی صفحات کاربری فروشگاهی (ووکامرس)

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wishlist/

Sitemap: https://yourdomain.com/sitemap.xml
cart/ , checkout/ , my-account/ → صفحات شخصی هرگز ایندکس نشوند.
✔ استاندارد طلایی ووکامرس.

⚠️ هشدار طلایی برای مدیریت فایل robots.txt (روباتس):

  • Disallow معادل حذف نیست: صفحات ایندکس‌شده همچنان ممکن است در نتایج بمانند. از تگ noindex برای حذف قطعی استفاده کنید.
  • آدرس Sitemap را به دامنهٔ واقعی خود تغییر دهید (https://yourdomain.com/sitemap.xml).
  • از قوانین متناقض (Allow و Disallow همزمان) پرهیز کنید.