Archivo Robots.txt

Archivo de texto situado en la raíz de un sitio web que define reglas para los rastreadores sobre qué secciones pueden rastrear y cuáles no.

El archivo robots.txt es un archivo de texto plano, sin código HTML, que se coloca en el directorio raíz de un sitio web (por ejemplo, https://www.ejemplo.com/robots.txt). Su función principal es comunicar a los bots o rastreadores de motores de búsqueda qué partes del sitio pueden rastrear y cuáles deben evitar.

Forma parte del denominado protocolo de exclusión de robots. Mediante directivas como User-agent, Disallow y Allow, el archivo define reglas específicas para cada tipo de bot (Googlebot, Bingbot, etc.) o para todos ellos a la vez. Si una ruta no se menciona en el archivo, por defecto se considera rastreable.

Entre los usos habituales del archivo robots.txt se encuentran: impedir el rastreo de secciones técnicas o irrelevantes (como áreas de administración, parámetros de filtrado o contenidos duplicados), reducir la carga sobre el servidor limitando el acceso de ciertos bots y declarar la URL del sitemap XML mediante la directiva Sitemap:, facilitando así la correcta indexación del sitio.

Es importante entender que robots.txt es consultivo: los rastreadores «bien educados» lo respetan, pero no es un mecanismo de seguridad ni de privacidad. No debe utilizarse para ocultar información sensible, ya que el archivo es público y puede revelar directamente qué rutas se intenta restringir.

Una configuración incorrecta puede tener un impacto negativo en el SEO, por ejemplo, bloqueando el acceso a recursos necesarios (como archivos CSS o JavaScript) o incluso impidiendo el rastreo de secciones críticas del sitio. Por ello, se recomienda planificar la estrategia de rastreo, probar el archivo en herramientas para webmasters y mantenerlo actualizado conforme evoluciona la estructura del sitio.

Ejemplos

  • Ejemplo:
    Bloquear todo el sitio a todos los bots: User-agent: *
    Disallow: /
  • Ejemplo:
    Permitir todo el sitio pero bloquear el directorio de administración y declarar el sitemap: User-agent: *
    Disallow: /admin/

    Sitemap: https://www.ejemplo.com/sitemap.xml
  • Ejemplo:
    Bloquear solo una carpeta concreta (por ejemplo, contenido duplicado): User-agent: *
    Disallow: /impresion/

Preguntas frecuentes

¿Dónde debo colocar el archivo robots.txt en mi sitio web?
El archivo robots.txt debe ubicarse siempre en el directorio raíz del dominio, accesible normalmente en la ruta /robots.txt (por ejemplo, https://www.ejemplo.com/robots.txt). Si se coloca en otra carpeta, los rastreadores no lo reconocerán como válido.
¿El archivo robots.txt impide que una página aparezca en Google?
Robots.txt impide el rastreo, no garantiza la desindexación. Una URL bloqueada podría seguir apareciendo en los resultados si otros sitios la enlazan. Para controlar la indexación se recomiendan directivas como la etiqueta meta robots "noindex" o la eliminación de la URL desde las herramientas para webmasters.
¿Es obligatorio tener un archivo robots.txt para hacer SEO?
No es obligatorio, pero sí muy recomendable. Si no existe robots.txt, los bots asumen que pueden rastrear todo el sitio. Contar con un archivo bien configurado permite optimizar el presupuesto de rastreo, evitar la indexación de contenido irrelevante o duplicado y facilitar el acceso al sitemap.

SINÓNIMOS

También conocido como: Protocolo de exclusión de robots, Archivo de control de rastreo

ÚLTIMA REVISIÓN

Actualizado el: 01/11/2025