A partir del 1 de septiembre, Google dejará de soportar reglas no soportadas e inéditas en el protocolo exclusivo de robots, anunció la compañía en el blog de Google para webmasters. Esto significa que Google ya no soportará los archivos robots.txt con la directiva noindex listada dentro del archivo. Con el fin de mantener un ecosistema saludable y prepararnos para futuras versiones de código abierto, retiramos todo el código que maneja reglas no soportadas e inéditas (como el noindex) el 1 de septiembre de 2019. Para aquellos de ustedes que confiaron en la directiva de indexación noindex en el archivo robots.txt, que controla el rastreo, hay varias opciones alternativas, dijo la compañía.
¿Cuáles son las alternativas? Google enumeró las siguientes opciones, las que probablemente deberías haber usado de todos modos:
(1) Noindex en meta tags de robots: Soportada tanto en las cabeceras de respuesta HTTP como en HTML, la directiva noindex es la forma más efectiva de eliminar URLs del índice cuando se permite el rastreo.
(2) Códigos de estado 404 y 410 HTTP: Ambos códigos de estado significan que la página no existe, por lo que estas URL se eliminarán del índice de Google una vez que se rastreen y procesen.
(3) Protección con contraseña: A menos que el marcado se utilice para indicar contenido de suscripción o de pago, ocultar una página detrás de un inicio de sesión generalmente la eliminará del índice de Google.
(4) No permitido en robots.txt: Los motores de búsqueda sólo pueden indexar las páginas que conocen, por lo que bloquear la página para que no sea rastreada a menudo significa que su contenido no será indexado. Aunque el motor de búsqueda también puede indexar una URL basada en enlaces de otras páginas, sin ver el contenido en sí mismo, nuestro objetivo es hacer que dichas páginas sean menos visibles en el futuro.
(5) Herramienta de eliminación de URL de la Consola de búsqueda: La herramienta es un método rápido y sencillo para eliminar temporalmente una URL de los resultados de búsqueda de Google.
Convertirse en un estándar. Google anunció que la empresa está trabajando para convertir el protocolo de exclusión de robots en un estándar y este es probablemente el primer cambio que se avecina. De hecho, Google publicó ayer su analizador robots.txt como un proyecto de código abierto junto con este anuncio.
¿Por qué está cambiando Google ahora? Google ha estado buscando cambiar esto durante años y con Google presionando para estandarizar el protocolo, ahora puede seguir adelante. Google dijo que analizaron el uso de las reglas de robots.txt. Google se centra en buscar implementaciones no compatibles con el borrador de Internet, como crawl-delay, nofollow y noindex. Dado que estas reglas nunca fueron documentadas por Google, naturalmente, su uso en relación con Googlebot es muy bajo, dijo Google. Estos errores dañan la presencia de los sitios web en los resultados de búsqueda de Google de una manera que no creemos que los webmasters pretendan.
Por qué es esto importante. Lo más importante es asegurarse de que no está utilizando la directiva noindex en el archivo robots.txt. Si es así, usted querrá hacer los cambios sugeridos antes del 1 de septiembre. También, mire si está usando los comandos nofollow o crawl-delay y si es así, mire para usar el verdadero método soportado para esas directivas en el futuro.