Crawling ¿Qué es y cómo funciona?

El crawling o crawleo es un procedimiento que realizan los motores de búsqueda para encontrar y analizar el contenido de un sitio web a través de “saltos” en cada URL.

Aquí es cuando también se añaden los términos de araña, Crawler o rastreadores, ya que el Bot se desplaza por los enlaces para abarcar todos los rincones de la web.

En el caso del navegador más utilizado del mundo (Google), su crawler es conocido como GoogleBot, un pequeño software que tiene la finalidad de categorizar todas las páginas existentes en Internet para asignarles un puesto en las SERPS en Google.

Aunque no lo creas, los recursos del buscador son limitados, por ese motivo, se asigna un presupuesto de rastreo o crawl budget en inglés que, básicamente, es un tiempo que se le asigna a cada sitio web para ser rastreado.

Si por una mala optimización On Page el Crawler no es capaz de alcanzar todas las URLs de un site, muchas no quedarán indexadas y posiblemente tu web no esté alcanzando todo su potencial

Es por eso que el crawling, se ha convertido en uno de los factores más importantes del SEO en los últimos años.

Ya que bien trabajado en una estrategia de posicionamiento web, puedes lograr excelentes resultados en cuanto al ranking y tráfico orgánico.

La importancia del Crawling

Como mencioné anteriormente, el crawling en un método que emplean los motores de búsqueda para conseguir examinar e indexar el contenido de un sitio web de acuerdo a su temática en los índices de cada navegador.

Asimismo, los Bots se encargan de revisar el sitio en busca de contenido nuevo o actualizado para determinar el puesto por el cual pueden optar en sus resultados.

La realidad es que nadie sabe los estándares por los que se basa Google Bot para priorizar una web frente a otra al 100%.

Lo que nos queda claro es que sin los Crawlers sería muy complicado tener todo el contenido existente en internet.

Cómo puede rastrearnos Google

Existen distintas formas por las que Google Bot puede acceder a nuestro contenido, entre las más destacadas encontramos:

Sitemaps

Enlaces internos

Backlinks

IP

DNS
Aunque si quieres asegurarte de que tu site sea rastreado al 100% es mejor que utilices desde mi experiencia el sitemap, aunque no es necesario al 100% si tu site es pequeño (menos de 1000 URLs).

El uso de una buena arquitectura web, como es por ejemplo la arquitectura silo puede ser de gran ayuda en este proceso.

Cómo saber el Crawling de una web

Si nuestra intención es conocer el Crawling de una web, tenemos dos opciones:

Search Console

Logs

Search Console para conocer el Crawling de nuestra web

La opción más simple si queremos ver cuantas veces rastrea Google nuestra web es a través de su propia herramienta para webmaster (Search Console). Entre su muchas funcionalidades que sirven de gran ayuda encontramos la opción de rastreo en  Google Search Console > Ajustes > Estadísticas de rastreo.

Nada más abrir la pantalla podemos ver los rastreos totales diarios, este dato quiere decir el número de veces que Google Bot ha rastreado nuestra web en un día.

crawling estadísticas de rastreo


También tenemos el tamaño total de la descarga, para conocer el peso total descargado en Byte.

crawling tamaño total de la descarga


Tiempo medio de respuesta, para conocer el tiempo que se tardó en obtener el contenido de una página.

crawling tiempo medio de respuesta


Pero esta información por si sola no aporta gran valor, ya que es demasiado poco específica, que un día haya un número mayor o menor de URLs rastreadas no significa por si solo nada, quizás se haya rastreado varias veces la misma URL y nosotros pensemos que se ha rastreado todo el site.

Igual sucede con el tamaño total de descarga o los tiempos de respuesta del servidor. Si un día se rastrean varias redirecciones 301, posiblemente el tiempo de rastreo se reduzca bastante ese día en comparación a otro que se rastreen URLs que dan 200.

La información válida para mí que podemos sacar de este informe es básicamente si existe algún problema en nuestra web o hemos cometido algún error al modificar el robots.txt, pero poca información más concluyente podemos encontrar, al no tener más detalles.

Crawling con análisis de logs

Posiblemente sea la mejor forma de analizar el Crawling de nuestra web y ver cómo se comporta con ella, pero a la vez es el método más complicado, tendremos que convertirnos en unos analistas de Logs para poder comprenderlo.

Este análisis es útil para webs que sean muy grandes o muy importantes, Google bot trata de forma diferente cada web y para poder comprender al bot necesitamos este análisis. Quizás no es necesario para la mayoría de web del mundo, pero si de verdad quieres comprender como Google bot rastrea tu web tendrás que usar esta metodología.

Con ella aprenderás:

Si tu site se rastrea de forma total o parcial en un periodo de tiempo determinado

Qué factores afectan de verdad al Crawling de tu web

Podrás crear un robots.txt personalizado para tu web y no uno predeterminado sacado de un artículo de blog que seguramente te perjudique más que ayude

Saber si Google está rastreado URL que no debería

URLs que dan 200 que no debería existir en tu site

Errores 5xx de tu servidor

Bloqueos de robots.txt que están afectando negativamente a tu SEO

URLs que han dejado de rastrearse

etc
Uno de los momentos en el que aprendí más sobre SEO, en especial sobre Crawling de Google fue con el análisis de Logs. Lo cierto es que no fue un proceso sencillo, pero te aseguro que te sorprenderá toda la información que aprenderás y te darás cuenta de que la mitad de los post que hablan sobre Crawling son réplicas de otros post sin ninguna base.

Conclusión

Ahora que ya sabes un poco más sobre el Crawling, ten en cuenta que es un proceso fundamental si quieres que tu web aparezca en Google.

Espero que te haya gustado el post y te atrevas a realizar un análisis de Logs para seguir aprendiendo de tu proyecto y como puede mejorar tu SEO.

Fuentes:

Google

Moz
Fuente: este post proviene de antoniomunoz, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
Creado:
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Etiquetas: seo

Recomendamos

Relacionado

Sin categoría

El Crawl Budget o Presupuesto de Rastreo es considerado uno de los factores de SEO técnico más importantes y estudiado por los SEOs. Pero, ¿realmente el Crawl Budget tiene tanta relevancia en el posicionamiento de una web? ¿Qué es el Crawl Budget o Presupuesto de Rastreo? El Crawl Budget o Presupuesto de Rastreo es el tiempo o número de solicitudes que nos da Google para revisar el contenido de nu ...

seo

El contenido duplicado básicamente es todo el contenido idéntico que se repite en distintas URLs de un mismo dominio o en una o varias URLs de otro dominio. También es una de las técnicas más usadas en el Black Hat SEO y una de las más penalizadas tanto por Google como por otros motores de búsqueda. Aunque el caso más común del contenido duplicado se refleja principalmente a nivel interno en la ma ...

SEO

Seguro que alguna vez te has preguntado cómo los bots de Google leen tu web, bueno, o cualquier otro motor de búsqueda. Hoy, desde nuestra agencia de marketing digital, hablamos del análisis de Logs, una técnica que nos va a permitir saber exactamente como los motores de búsqueda están rastreando nuestra web. En este post vamos a ver en primera instancia que es un logs y para qué sirve, como obten ...

Blog diseño web marketing ...

¿Qué es el SEO? Hoy en este post hablaremos sobre que es el SEO. El SEO (Search Engine Optimization), podemos definirlo como el posicionamiento de motores de búsqueda y optimización del mismo, permitiendo la visibilidad factible de resultados de tu sitio en la red, en los diferentes buscadores existentes. El SEO desde hace mucho tiempo ha marcado pauta en el área del internet ya que es necesario p ...

seo

¿Cómo de importante es un sitemap en SEO? Es una pregunta que muchos SEO se suelen y sobre todo al principio. La realidad es que, normalmente lo escuchamos muy a menudo en videos de youtube, blogs o foros que hablan sobre la optimización web. Y si no ha habido una explicación clara y concisa, probablemente no lo hayas terminado de entender o posiblemente todavía no sepas de qué va. Sea cual sea el ...

Actualidad SEO Error ...

Un error 404 leve o soft 404 se produce cuando un servidor web da un código de estado 200 (petición correcta) y sin embargo, el navegador nos muestra una página de error 404. Vamos por pasos: Códigos de estado HTTP Un código de estado HTTP es la respuesta que un servidor web da cuando se le hace una petición. Normalmente, cuando se hace una petición que es aceptada y procesada con éxito, el navega ...

Marketing Digital SEO

El SEO (Search Engine Optimization) es el proceso de mejorar la visibilidad y el ranking de un sitio web en los resultados de búsqueda orgánicos de los motores de búsqueda. El objetivo del SEO es aumentar el tráfico de calidad de un sitio web, lo que puede convertirse en ventas o conversiones para el sitio. Para recibir asesoría y desarrollar estrategias SEO, podemos buscar el servicio de agencias ...

wordpress Linux noticia ...

Un Web crawler indexador web, indizador web o araña web es un programa informático que navega he inspecciona las páginas del World Wide Web (www) por Internet de una manera predeterminada, configurable y automática, realizando acciones programadas en el contenido crawler. Los motores de búsqueda como Google y Yahoo utilizan rastreadores como medio de proporcionar datos de búsqueda, es decir, est ...

sin categoría

En el artículo de hoy te hablaré sobre el Link Juice, una técnica más de la optimización web utilizada para mejorar el posicionamiento orgánico. Antes de empezar, quiero que entiendas la manera en la que trabaja Google, este motor de búsqueda es un algoritmo conformado por una serie de factores que analizan una página para asignarle un puesto en el ranking o índice de resultados. Nadie sabe a cien ...

Community Manager Herramientas para Community Manager

Bitly es conocido principalmente por ser un acortador de enlaces URL popular, pero eso no es todo. Además de procesar miles de millones de clics de enlaces web cada mes, Bitly también es una poderosa herramienta de marketing en línea que se utiliza para rastrear clics, ver referencias de sitios y tener una idea de qué ubicaciones geográficas provienen la mayoría de los clics. Los community manager ...