Esta mañana el Googlero John Mueller ha respondido una pregunta sobre las URLs indexadas y el bloqueo de las mismas en el archivo robots.txt. Vamos a ver de que se trata esto y por supuesto, con un par de consejos al respecto.
La pregunta sobre URLs indexadas y bloqueo en Robots.txt
El usuario de Twitter RomainP ha preguntado en este tweet: Hola @JohnMu. Veo cada vez más sitios web que tienen páginas indexadas a pesar de estar bloqueadas por robots.txt. ¿Alguna idea de por qué o cómo detener eso? Principalmente URL con parámetros.Desde el punto de vista del Sr. Romain, esta pregunta tiene mucho sentido, porque hay muchos sitios que están aplicando esta estrategia y les está funcionando. Veamos que dijo el Googlero.
La respuesta de John
En este tweet dijo: No use robots.txt para bloquear la indexación de URL con parámetros. Si hace eso, no podemos canonizar las URL y pierde todo el valor de los enlaces a esas páginas. Use rel-canonical, enlace limpio internamente, etc.Y demás agregó: No veríamos el rel-canonical si está bloqueado por robots.txt, por lo que elegiría uno u otro. Si usa robots.txt, los trataremos como a otras páginas robotizadas (y no sabremos qué hay en la página, por lo que podríamos indexar la URL sin contenido).
¿Qué significa esto?
Simplemente significa que debemos bloquear las páginas correctas en el robots.txt. Por ejemplo, páginas de estilos, funcionalidades (JS, PHP, JQuery) etc; es decir, que no tengan ninguna influencia sobre el contenido y sobre cómo lo podrían encontrar los usuarios.Con respecto a la canonicalización, puedes ver este artículo para aprender más y saber como, cuando y por qué debemos indicar este tipo de URL. También puedes encontrar en este otro artículo información sobre cómo el buscador elige una URL canónica para indexar una página o entrada en sus resultados de búsqueda.
Por último
Y cómo consejo extra: te recomiendo que mantengas tu archivo robots.txt abierto, de esa forma puedes estar seguro de evitar posibles conflictos de indexación de tu contenido.Si deseas evitar que Google encuentre, muestre y siga una página específica en sus índices, solo debes implementar una etiqueta noindex-nofollow en esa página y problema resuelto.