Crawling ¿Qué es y cómo funciona?

El crawling o crawleo es un procedimiento que realizan los motores de búsqueda para encontrar y analizar el contenido de un sitio web a través de “saltos” en cada URL.

Aquí es cuando también se añaden los términos de araña, Crawler o rastreadores, ya que el Bot se desplaza por los enlaces para abarcar todos los rincones de la web.

En el caso del navegador más utilizado del mundo (Google), su crawler es conocido como GoogleBot, un pequeño software que tiene la finalidad de categorizar todas las páginas existentes en Internet para asignarles un puesto en las SERPS en Google.

Aunque no lo creas, los recursos del buscador son limitados, por ese motivo, se asigna un presupuesto de rastreo o crawl budget en inglés que, básicamente, es un tiempo que se le asigna a cada sitio web para ser rastreado.

Si por una mala optimización On Page el Crawler no es capaz de alcanzar todas las URLs de un site, muchas no quedarán indexadas y posiblemente tu web no esté alcanzando todo su potencial

Es por eso que el crawling, se ha convertido en uno de los factores más importantes del SEO en los últimos años.

Ya que bien trabajado en una estrategia de posicionamiento web, puedes lograr excelentes resultados en cuanto al ranking y tráfico orgánico.

La importancia del Crawling

Como mencioné anteriormente, el crawling en un método que emplean los motores de búsqueda para conseguir examinar e indexar el contenido de un sitio web de acuerdo a su temática en los índices de cada navegador.

Asimismo, los Bots se encargan de revisar el sitio en busca de contenido nuevo o actualizado para determinar el puesto por el cual pueden optar en sus resultados.

La realidad es que nadie sabe los estándares por los que se basa Google Bot para priorizar una web frente a otra al 100%.

Lo que nos queda claro es que sin los Crawlers sería muy complicado tener todo el contenido existente en internet.

Cómo puede rastrearnos Google

Existen distintas formas por las que Google Bot puede acceder a nuestro contenido, entre las más destacadas encontramos:

Sitemaps

Enlaces internos

Backlinks

IP

DNS
Aunque si quieres asegurarte de que tu site sea rastreado al 100% es mejor que utilices desde mi experiencia el sitemap, aunque no es necesario al 100% si tu site es pequeño (menos de 1000 URLs).

El uso de una buena arquitectura web, como es por ejemplo la arquitectura silo puede ser de gran ayuda en este proceso.

Cómo saber el Crawling de una web

Si nuestra intención es conocer el Crawling de una web, tenemos dos opciones:

Search Console

Logs

Search Console para conocer el Crawling de nuestra web

La opción más simple si queremos ver cuantas veces rastrea Google nuestra web es a través de su propia herramienta para webmaster (Search Console). Entre su muchas funcionalidades que sirven de gran ayuda encontramos la opción de rastreo en  Google Search Console > Ajustes > Estadísticas de rastreo.

Nada más abrir la pantalla podemos ver los rastreos totales diarios, este dato quiere decir el número de veces que Google Bot ha rastreado nuestra web en un día.

crawling estadísticas de rastreo


También tenemos el tamaño total de la descarga, para conocer el peso total descargado en Byte.

crawling tamaño total de la descarga


Tiempo medio de respuesta, para conocer el tiempo que se tardó en obtener el contenido de una página.

crawling tiempo medio de respuesta


Pero esta información por si sola no aporta gran valor, ya que es demasiado poco específica, que un día haya un número mayor o menor de URLs rastreadas no significa por si solo nada, quizás se haya rastreado varias veces la misma URL y nosotros pensemos que se ha rastreado todo el site.

Igual sucede con el tamaño total de descarga o los tiempos de respuesta del servidor. Si un día se rastrean varias redirecciones 301, posiblemente el tiempo de rastreo se reduzca bastante ese día en comparación a otro que se rastreen URLs que dan 200.

La información válida para mí que podemos sacar de este informe es básicamente si existe algún problema en nuestra web o hemos cometido algún error al modificar el robots.txt, pero poca información más concluyente podemos encontrar, al no tener más detalles.

Crawling con análisis de logs

Posiblemente sea la mejor forma de analizar el Crawling de nuestra web y ver cómo se comporta con ella, pero a la vez es el método más complicado, tendremos que convertirnos en unos analistas de Logs para poder comprenderlo.

Este análisis es útil para webs que sean muy grandes o muy importantes, Google bot trata de forma diferente cada web y para poder comprender al bot necesitamos este análisis. Quizás no es necesario para la mayoría de web del mundo, pero si de verdad quieres comprender como Google bot rastrea tu web tendrás que usar esta metodología.

Con ella aprenderás:

Si tu site se rastrea de forma total o parcial en un periodo de tiempo determinado

Qué factores afectan de verdad al Crawling de tu web

Podrás crear un robots.txt personalizado para tu web y no uno predeterminado sacado de un artículo de blog que seguramente te perjudique más que ayude

Saber si Google está rastreado URL que no debería

URLs que dan 200 que no debería existir en tu site

Errores 5xx de tu servidor

Bloqueos de robots.txt que están afectando negativamente a tu SEO

URLs que han dejado de rastrearse

etc
Uno de los momentos en el que aprendí más sobre SEO, en especial sobre Crawling de Google fue con el análisis de Logs. Lo cierto es que no fue un proceso sencillo, pero te aseguro que te sorprenderá toda la información que aprenderás y te darás cuenta de que la mitad de los post que hablan sobre Crawling son réplicas de otros post sin ninguna base.

Conclusión

Ahora que ya sabes un poco más sobre el Crawling, ten en cuenta que es un proceso fundamental si quieres que tu web aparezca en Google.

Espero que te haya gustado el post y te atrevas a realizar un análisis de Logs para seguir aprendiendo de tu proyecto y como puede mejorar tu SEO.

Fuentes:

Google

Moz
Fuente: este post proviene de antoniomunoz, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
Creado:
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Etiquetas: seo

Recomendamos

Relacionado

Sin categoría

El Crawl Budget o Presupuesto de Rastreo es considerado uno de los factores de SEO técnico más importantes y estudiado por los SEOs. Pero, ¿realmente el Crawl Budget tiene tanta relevancia en el posicionamiento de una web? ¿Qué es el Crawl Budget o Presupuesto de Rastreo? El Crawl Budget o Presupuesto de Rastreo es el tiempo o número de solicitudes que nos da Google para revisar el contenido de nu ...

seo

El contenido duplicado básicamente es todo el contenido idéntico que se repite en distintas URLs de un mismo dominio o en una o varias URLs de otro dominio. También es una de las técnicas más usadas en el Black Hat SEO y una de las más penalizadas tanto por Google como por otros motores de búsqueda. Aunque el caso más común del contenido duplicado se refleja principalmente a nivel interno en la ma ...

SEO

Seguro que alguna vez te has preguntado cómo los bots de Google leen tu web, bueno, o cualquier otro motor de búsqueda. Hoy, desde nuestra agencia de marketing digital, hablamos del análisis de Logs, una técnica que nos va a permitir saber exactamente como los motores de búsqueda están rastreando nuestra web. En este post vamos a ver en primera instancia que es un logs y para qué sirve, como obten ...

seo

¿Cómo de importante es un sitemap en SEO? Es una pregunta que muchos SEO se suelen y sobre todo al principio. La realidad es que, normalmente lo escuchamos muy a menudo en videos de youtube, blogs o foros que hablan sobre la optimización web. Y si no ha habido una explicación clara y concisa, probablemente no lo hayas terminado de entender o posiblemente todavía no sepas de qué va. Sea cual sea el ...

Diccionario SEO

Hay muchas herramientas SEO en el mercado, tanto gratuitas como de pago que ayudan mucho en la labor diaria del posicionamiento de cualquier web, pero si hay una herramienta que es fundamental es Search Console, ofrecida por Google de forma totalmente gratuita. Para poder usar Search Console solo tienes que tener una cuenta de Google, por ejemplo la que uses para tu correo de Gmail, y acceder a ht ...

Blog diseño web marketing ...

¿Qué es el SEO? Hoy en este post hablaremos sobre que es el SEO. El SEO (Search Engine Optimization), podemos definirlo como el posicionamiento de motores de búsqueda y optimización del mismo, permitiendo la visibilidad factible de resultados de tu sitio en la red, en los diferentes buscadores existentes. El SEO desde hace mucho tiempo ha marcado pauta en el área del internet ya que es necesario p ...

SEO errores de rastreo Google Search Console ...

Tengo mi blog en WorsPress.com Hace un par de meses he notado un bajón muy importante de mi tráfico y rendimiento hacia mi blog, y chequeando en las estadísticas de WordPress, me di cuenta que el efecto fué si bien paulatino desde hace un año para acá, el de hace dos meses fue más abrupto. En un principio consideraba que el origen se debía a que durante el verano apenas he creado contenido en el b ...

Diccionario SEO

Como seguramente ya sabes, Google muestra los resultados a las búsquedas de los usuarios dentro de un índice, es decir, un listado de páginas a las que podemos acceder para satisfacer nuestra necesidad. Cuando decimos que un contenido está indexado, es que Google lo ha recogido y lo ha expuesto dentro de ese índice . Esas páginas que contienen los contenidos se llaman SERPs y hablé de ellas aquí y ...

Google Marketing Recursos ...

¿Qué es la canibalización SEO y por qué puede hundir un proyecto? Aunque suene parecido, no hay que confundir canibalización con canibalismo, El canibalismo es el acto o la práctica de alimentarse con miembros de la propia especie. La canibalización se alimenta también de la misma especie, pero en este caso de tus propias URLs que intentan posicionar por la misma keyword. La palabra canibalizació ...

Actualidad SEO Error ...

Un error 404 leve o soft 404 se produce cuando un servidor web da un código de estado 200 (petición correcta) y sin embargo, el navegador nos muestra una página de error 404. Vamos por pasos: Códigos de estado HTTP Un código de estado HTTP es la respuesta que un servidor web da cuando se le hace una petición. Normalmente, cuando se hace una petición que es aceptada y procesada con éxito, el navega ...