# robots.txt para un blog WordPress.
# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).
User-Agent: *
Allow: /ads.txt
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /ads
# Desindexar carpetas que empiecen por wp-
Disallow: /wp-
# Permitir sitemap pero no las búsquedas.
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
# Permitir Feed general para Google Blogsearch.
# Impedir que /permalink/feed/ sea indexado pues el feed de comentarios suele posicionarse antes de los post.
# Impedir URLs terminadas en /trackback/ que sirven como Trackback URI (contenido duplicado).
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
# Evita bloqueos de CSS y JS.
Allow: /*.js$
Allow: /*.css$
# Lista de bots que deberías permitir.
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
# Lista de bots que generan consultas abusivas aunque siguen las pautas del archivo robots.txt
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
# Slurp (Yahoo!), Noxtrum y el bot de MSN que suelen generar excesivas consultas.
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10