Hay muchos casos en los que un robots.txt no es ni siquiera necesario, porque todo lo que tenemos en el sitio es contenido indexable, pero hay otras ocasiones en que los sitios webs tienen partes que no son relevantes para un motor de búsqueda, como por ejemplo una página de login o un carrito de la compra, y también momentos en que nos encontramos con problemas de presupuesto de rastreo y queremos optimizar nuestro sitio al máximo evitando al buscador perder el tiempo y ahí es cuando entra en juego el robots.
¿Cómo crear un archivo robots.txt?
Técnicamente es muy sencillo, es solamente un archivo de texto y puedes crearlo desde cualquier editor, el mismo notepad sirve. Una vez que lo tengas tendrás que seguir una sintaxis para que las arañas lo comprendan, pero no te preocupes es muy sencillo.User-agent: XXX
Disallow: XXX
Donde User agent estamos haciendo alusión al robot que queremos bloquear el acceso, y en disallow lo que indicamos es el sitio al que no queremos que acceda.
User-agent: *
Disallow: /politica-de-privacidad/
En ese ejemplo le estaríamos diciendo que ningún robot pueda acceder a esas páginas legales.
Cuando tengas listo el archivo, lo mejor es que lo pongas en el raíz de tu web, y el nombre del archivo debe estar en minúscula:
https://tuweb.com/robots.txt
Debes tratar este archivo con cuidado, si te equivocas en algo, puedes desindexar zonas completas de la web que sean importantes o incluso el sitio completo. Google te ofrece un probador: https://www.google.com/webmasters/tools/robots-testing-tool.
¿Qué diferencia hay entre robots.txt y la etiqueta noindex?
Cuando bloqueamos por robots, no estamos gastando presupuesto de rastreo, el robot no pierde tiempo en esas páginas de nuestra web. También puede que queramos por ejemplo evitar el acceso a áreas enteras del sitio y sea más cómodo hacerlo así.El noindex si que consumirá recursos, porque Google tendrá que entrar a comprobar el contenido y ver que no tiene que indexarlo. Ten en cuenta algo, y es que si bloqueas algo por robots, Google no lo leerá, por lo tanto si por ejemplo bloqueas un contenido que recibe muchos enlaces externos, aunque hayas puesto también la etiqueta noindex en el código, Google no la leerá porque le hemos indicado que no lo haga en el robots. Es un concepto que puede resultar un poco confuso, pero simplemente tienes que entender que el robots tiene prioridad, y si bloqueamos algo en el, Google ya ni siquiera entrará a leer ese archivo.
Otros datos sobre el robots
Otra cosa que suele hacerse en el robots es indicar la ubicación del Sitemap mediante el comando:Sitemap: https://tuweb.com/sitemap.xml
Si quieres escribir comentarios en el archivo y que sean ignorados por el crawler, puedes hacerlo poniendo delante una (#) almohadilla en esa línea. Puedes ponerte todo lo creativo que quieras, te dejo el ejemplo del robots de pccomponentes:
https://www.pccomponentes.com/robots.txt