La exclusión de robots dentro del archivo Robots.txt será un standart. Así lo anunció Google en un tweet donde ha hecho público el artículo que explica; cómo después de 25 años se ha hecho imperativa la necesidad de aplicar la especificación del protocolo de exclusión de robots. ¡Vamos a ver de qué se trata!
¿Qué es la exclusión de Robots?
Este es un protocolo que se dicta por medio de un comando: User-agent:. En este caso, el comunicado de Google explica que este comando deberá ser implementado en todos los sitios como insignia de las buenas prácticas en línea.
¿Eso significa que debemos excluir todos los robots de búsqueda? Absolutamente no, esto quiere decir que debemos especificar los robots a los que deseamos brindarle acceso a nuestra web. Por ejemplo: si deseas que cualquier buscador entre y revise tu sitio; simplemente implanta este comando:
User-agent: *
Si deseas excluir un robot en especifico, como Bing por ejemplo:
User-agent: Bingbot
Disallow: /
Para qué sirve la exclusión de robots
La exclusión de robots en el archivo robots.txt fue implementada por primera vez en 1994 por Martijn Koster al ver la velocidad su sitio afectada por todos los bots que analizaban su web contemporaneamente. De ahí fue que se implementó el código para excluir uno o todos los motores de búsqueda.
Una recomendación es que dejes libre el acceso a todos los buscadores puesto que ya no son tan invasivos como antes.
¿Por qué se está implementando esto como standart oficial?
Porque los desarrolladores han venido interpretado este protocolo de manera muy personal y diferente a lo largo de los años. Y desde su inicio, estos protocolos de robots no se ha actualizado para cubrir necesidades de desarrollo modernas.
Google afirma en su comunicado oficial: Queríamos ayudar a los propietarios y desarrolladores de sitios web a crear experiencias increíbles en Internet en lugar de preocuparnos por cómo controlar los rastreadores. Junto con el autor original del protocolo, los webmasters y otros motores de búsqueda, documentamos cómo se usa el REP en la web moderna y lo enviamos al IETF.
¿Cual es la finalidad de esta iniciativa?
Establecer un protocolo global con reglas estructuradas y establecidas indirectamente por los mismos usuarios en más de veinticuatro años desde el nacimiento del primer robots.txt. Google también asegura que estas reglas tiene como misión principal brindar más poder a los usuarios de decidir qué mostrar o no mostrar a los motores de búsqueda más detalladamente.
¿Eso cambia las reglas de tu archivo robots.txt?
Por ahora no, esta implementación está planeada para concebir todos los escenarios no tomados en cuenta en el pasado, adaptandolos para la web moderna. Así que puedes dejar tu archivo como está hasta que los nuevos comandos sean publicados y si no tienes uno asegúrate de incluirlo lo antes posible.
Cambios principales de esta estandarización
1. Cualquier protocolo de transferencia podrá utilizar robots.txt. Por ejemplo, ya no se limita a HTTP y también se puede usar para FTP o CoAP.
2. Permitirá establecer un tamaño máximo del archivo de 500 kibibytes (0.512 Megabyte) de conexión entre los robots y los sitios; esto para aliviar cargas innecesarias en los servidores y las páginas.
3. Máximo 24 horas de almacenamiento en caché, esto brinda la flexibilidad de actualizar el archivo robots.txt cuando se desee, y los buscadores no están sobrecargando los sitios con solicitudes de robots.txt.
4. La nueva especificación estipula que cuando un archivo robots.txt se vuelve inaccesible debido a fallas del servidor; las páginas desconocidas no se rastrean durante un período de tiempo razonablemente largo.
5. Definición mejorada de la sintaxis de robots.txt. Esto es fundamental para que los desarrolladores analicen las líneas de código.
Conclusión
Este cambio, así como los otros anunciados por Google en este par de meses trae promesas de mejoras muy notables para toda la comunidad, tanto de desarrolladores, como apasionados. Ya sabes lo que se viene y puedes prepararte con tiempo.
Si te ha gustado este post ¡compartelo! alguien que conoces podría disfrutarlo también.
Fuente: este post proviene de BlogTopSEO donde puedes consultar el contenido original.