روبوتس یا همان robots.txt، یک فایل متنی ساده در ریشهٔ هاست شماست که نقش «چراغ راهنمای خزش» را برای موتورهای جستجو ایفا میکند. این فایل robots.txt به رباتها (مانند گوگلبات) میگوید که اجازهٔ ورود به کدام بخشهای سایت را دارند و از کدام بخشها باید دوری کنند. مسیر خواندن این فایل روبوتس به این صورت است که موتورهای جستجو به محض ورود به دامنهٔ شما، اولین درخواست خود را به آدرس yourdomain.com/robots.txt ارسال کرده و دستورات درون آن را بر اساس پروتکل استاندارد (شناسایی عامل کاربر با User-agent و دستورات Disallow و Allow) پردازش میکنند. توجه داشته باشید که فایل robots.txt یک «درخواست» است نه «دیوار آتش»؛ رباتهای خوب از آن اطاعت میکنند، اما برای حذف کامل یک صفحه از نتایج گوگل، باید از متاتگ noindex استفاده کنید. بهطور خلاصه، robots.txt همان روباتس یا روبوتس است که مدیریت خزش را در دست دارد.
📋 ۱۰ کد آماده و پرکاربرد robots.txt
مخصوص انواع سایتها
۱. دسترسی کامل (باز بودن مطلق)
User-agent: * Disallow: Sitemap: https://yourdomain.com/sitemap.xml
User-agent: * → اعمال قوانین برای همه رباتها.
Disallow: → خالی یعنی هیچ مسیری ممنوع نیست.
Sitemap: → آدرس نقشهٔ سایت برای کشف سریعتر.
✔ مناسب سایتهای عمومی، خبری و شرکتی.
۲. بستن کامل سایت (توسعه و هاست موقت)
User-agent: * Disallow: / Sitemap: https://yourdomain.com/sitemap.xml
Disallow: / → کل دایرکتوری ریشه بسته میشود.
✔ فقط برای سایتهای در دست ساخت.
۳. مسدودسازی پوشههای مدیریتی وردپرس
User-agent: * Disallow: /admin/ Disallow: /wp-admin/ Disallow: /includes/ Disallow: /cgi-bin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://yourdomain.com/sitemap.xml
Allow: admin-ajax.php → استثنا برای عملکرد افزونهها.
✔ ضروری برای تمام سایتهای وردپرسی.
۴. مسدودسازی رباتهای مزاحم (Ahrefs و SEMrush)
User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: /
✔ مناسب سرورهای ضعیف.
۵. مسدودسازی پارامترهای فیلتر و مرتبسازی
User-agent: * Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?page= Disallow: /*?tag= Sitemap: https://yourdomain.com/sitemap.xml
✔ عالی برای فروشگاههای آنلاین.
۶. ایجاد تاخیر در خزش (Crawl-delay)
User-agent: * Crawl-delay: 5 Disallow: Sitemap: https://yourdomain.com/sitemap.xml
⚠️ گوگل پیروی نمیکند، از Search Console استفاده کنید.
✔ برای سرورهای با منابع محدود.
۷. مسدودسازی ربات تصویر گوگل
User-agent: Googlebot-Image Disallow: / User-agent: * Allow: /
✔ صرفهجویی در پهنای باند.
۸. بستن تمام صفحات دارای کوئری (?)
User-agent: * Disallow: /*? Sitemap: https://yourdomain.com/sitemap.xml
✔ جلوگیری از محتوای تکراری.
۹. مسدودسازی پوشههای کش و بکآپ
User-agent: * Disallow: /temp/ Disallow: /cache/ Disallow: /backup/ Disallow: /tmp/ Sitemap: https://yourdomain.com/sitemap.xml
✔ حفظ بودجه خزش.
۱۰. مسدودسازی صفحات کاربری فروشگاهی (ووکامرس)
User-agent: * Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /wishlist/ Sitemap: https://yourdomain.com/sitemap.xml
✔ استاندارد طلایی ووکامرس.
⚠️ هشدار طلایی برای مدیریت فایل robots.txt (روباتس):
- Disallow معادل حذف نیست: صفحات ایندکسشده همچنان ممکن است در نتایج بمانند. از تگ
noindexبرای حذف قطعی استفاده کنید. - آدرس Sitemap را به دامنهٔ واقعی خود تغییر دهید (
https://yourdomain.com/sitemap.xml). - از قوانین متناقض (Allow و Disallow همزمان) پرهیز کنید.