Robots.txt

¿Qué es robots.txt?

Robots.txt es un archivo en lenguaje HTML en el que se le comunica a los robots de Google qué páginas de tu sitio web no quieres que sean indexadas por el buscador.

Los bots sólo pasan por tu web cada cierto tiempo. El archivo robots.txt te permite sacar provecho del período en que los bots recorren tu web, señalándoles qué páginas o carpetas no es necesario que indexen, para que en cambio se enfoquen en las que sí te interesa indexar.

Una vez que tienes tu robots.txt, debes guardarlo en la carpeta raíz de tu sitio. Puedes acceder a él (o al de otras webs o competidores) simplemente escribiendo el dominio más /robots.txt.

¿Qué páginas conviene incluir?

Quizás pienses ¿por qué tendría páginas que no quiero indexar? y no sepas qué colocar en este archivo. Sin embargo, hay muchas páginas genéricas que suelen incluirse:

  • Las imágenes: todo archivo de imagen puede aparecer, por sí mismo, como resultado de búsqueda (algo que no quieres que suceda).
  • Otros archivos que estén cargados en tu web.
  • Páginas restringidas para los clientes o el equipo: por ejemplo, una página de “gracias por tu compra”, o la página de acceso para los miembros de la compañía, etc.
  • Áreas de prueba que no deben estar disponibles para todo público.
  • Listados de autores, categorías y númeración de páginas.

¿Cómo crear un robots.txt?

Crear un archivo robots.txt es muy simple y puedes hacerlo en el bloc de notas de tu ordenador.

Necesitarás conocer algunos de los comandos muy simples y la sintaxis de robots.txt:

  1. User-agent: puedes especificar para qué bot específico son las instrucciones. Si no tienes mucha experiencia, te recomendamos que coloques un asterisco (*), lo que indica que tus comandos son para todos los bots que rastreen la web.
  2. Disallow: indica las URLs o carpetas que se deben excluir del rastreo. Por ejemplo: disallow: /archivos/.
  3. Allow: si dentro de una carpeta que quieres bloquear, hay una URL o archivo que quieres permitir, puedes indicarlo con el comando allow.
  4. Sitemap: puedes usar este comando si deseas incluir el sitemap dentro de tu robots.txt. Esto no bloquea todas las páginas de tu sitemap sino que le indica a los bots dónde encontrarlo.

¡Ya sabes qué es Robots.txt! Si te ha interesado y quieres aprender más, te recomendamos nuestro Curso de SEO.

Aprende a posicionar webs con clases prácticas y personalizadas.