Cómo detectar y solucionar los errores de rastreo de una web en Google



Los errores de rastreo en páginas web pueden detectarse y corregirse por medio de las herramientas para webmaster de Google. Es posible que a lo largo del período de vida de un sitio web, se produzcan diversas situaciones que impidan que éste pueda ser correctamente rastreado e indexado por el buscador.
En esta guía vamos a aprender qué son los errores de rastreo que se producen en las páginas web que administramos, cómo detectarlos y cómo solucionarlos de una manera sencilla y eficiente.
¿Qué son los errores de rastreo en un sitio web? 

Se trata de errores de diversa índole que impiden que un buscador pueda acceder y almacenar satisfactoriamente la información que un determinado sitio web posee. 

La explicación más sencilla tiene que ver con cómo los buscadores recogen datos de las páginas web sobre las cuales va a ofrecer resultados a sus usuarios. Un buscador en Internet, como por ejemplo Google, recopila enormes cantidades de información de sitios web que después puede ofrecer a sus usuarios en los resultados de las búsquedas que éstos realizan. 

El buscador lanza pequeños programas informáticos llamados "robots" que recorren nuestras páginas web y las analizan para entender cuál es su estructura, cómo se distribuye su contenido y qué información proporciona. Este proceso que realizan los robots del buscador se conoce como rastreo y es esencial para todo aquel que desea exponer su contenido en el buscador para que pueda ser accedido por los usuarios que lo utilizan.

Con la información rastreada sobre los sitios web, el buscador después "indexa" u ordena comprensiblemente la información extraída de cada sitio web en su propia "bases de datos" (índice) para después ofrecerla a sus usuarios en los resultados a sus usuarios.

Cuantos menos errores de rastreo se produzcan en todo este proceso de extracción de información, mejor y más detallada será la información que el buscador posea en su índice sobre el sitio web analizado.

¿Qué importancia tienen los errores de rastreo de un sitio web?

El rastreo es fundamental la primera vez que creamos nuestra página web y deseamos que el buscador sea capaz de reconocerla y encontrarla cuando sus usuarios realizan consultas en el mismo. Aunque se trata de un proceso completamente automático y que los propios buscadores realizan a diario, su optimización y preparación facilitan enormemente su ejecución, haciendo que nuestra web pueda obtener mayor tráfico de visitas al ofrecerse en los resultados de las búsquedas de los usuarios.
Después de la creación de nuestro sitio web y su aparición en Internet, su importancia es más bien proporcional al problema que pueda representar el no acceder a una determinada página. Simplificando técnicamente, un sitio web, tenga el formato que tenga y posea la información que posea, ésta la tiene distribuida por todas las páginas web que lo componen. Será necesario que al menos sean rastreadas correctamente la mayor parte de esas páginas web que conforman el sitio web, si es que deseamos presentarlas en los resultados del buscador.

Así pues, tendrá mayor importancia que no se pueda rastrear una página como la principal correctamente que una entrada antigua o un enlace roto. La mayor parte de los problemas de rastreo que suelen detectarse en un sitio web no representan un problema para que éste pueda ser analizado y correctamente almacenado en un buscador.

Como norma general habría que tener dos puntos fundamentales en cuenta: la importancia de la página no rastreada (cuanto más importante sea para nosotros, mayor importancia tendrá el error) y la cantidad de errores que puedan producirse (si es una cantidad excesiva, miles de errrores, podría implicar para el buscador que se está analizando una página de baja calidad).

¿Qué tipos de errores de rastreo se producen al analizar las páginas web de un sitio en Internet?

Los errores que los robots rastreadores devuelven tras analizar una página web suelen contener un código. Si el código es 200 quiere decir que el rastreo ha sido completamente satisfacotrio, sin embargo un 404 indica que la página a analizar no existe y que por tanto el rastreo ha sido incorrecto.

Los código de error de rastreo más frecuentes suelen ser:

404: Página no encontrada. Se produce cuando un enlace a una determinada página web no "conecta" o enlaza con nada. Si por ejemplo borramos una entrada de un Blog o una página de una tienda web y dejamos el enlace existente en alguna de las páginas de nuestro sitio web, cuando el robot "enganche" con el enlace a la página eliminada, tratará de leerla y no la encontrará devolviendo el error 404.
403: Acceso no permitido. Si hemos especificado explícitamente que no deseamos que se acceda a una determinada página de nuestro sitio web, el robot del buscador devolverá un 403 indicando que no puede rastrearla porque su acceso no está permitido.
503: Servicio no disponible. Sucede casi siempre temporalmente y puede deberse a inestabilidad en la conexión del servidor que almacena el sitio web. Puede producirse involuntariamente pues es un problema ajeno a nuestro control directo. No suelen tener gran importancia si no se producen en largos períodos de tiempo o son simplemente puntuales.
500: Se trata de un error interno del servidor. Con frecuencia puede producirse esta situación cuando se utilizan bases de datos o servidores que puedan quedarse "colgados" o que fallen en un determinado punto. Tanto el 500 como el 503 tienen que ver con la calidad del servicio que puedas ofrecer. Al igual que con el 503, si se trata de errores puntuales y de escasa duración no tienen gran importancia.Un listado completo de todos los códigos de errores de rastreo que pueden producirse los tienes en el centro de ayuda de Google sobre las estadísticas de rastreo en las herramientas para webmaster.

¿Cómo se debe informar correctamente al buscador de los contenidos de una web para que los rastree correctamente?. 

A continuación expongo en tres pasos la manera en que debe reportarse la información de nuestro sitio web al buscador. Se trata fundamentalmente de darnos de alta en las herramientas para webmaster de Google, informar de la estructura de nuestro sitio web para que pueda ser rastreada y establecer qué páginas deseamos que sean rastreadas y cuáles no:

1) Alta en las herramientas para webmaster de Google. Indica al buscador la existencia de tu web para que pueda rastrearla y añadirla a su índice.

En primer lugar es fundamental que tengas tu sitio web perfectamente dado de alta en las herramientas para webmaster de Google. Realiza esta guía paso a paso para entender qué son, cómo funcionan y dar de alta tu sitio web en ellas: Aprende a utilizar las herramientas para webmaster de Google. 2) Indica la estructura de tu web y cómo se distribuye la información a través de ella gracias al mapa del sitio (sitemap.xml).

A continuación, debes informar adecuadamente de la estructura de tu sitio web. Para ello, debes subir el "sitemap" o mapa del sitio de tu web a las herramientas para webmaster de Google. Para ello realiza la guía paso a paso sobre Qué es y cómo se utiliza el sitemap.xml. De esta manera el robot del buscador podrá saber cómo moverse por tu sitio web y podrá recorrerlo con facilidad.3) Establece las partes de tu sitio web que pueden ser rastreadas y las que no utilizando correctamente tu archivo robots.txt.
Indica las páginas de tu sitio web que deseas que sean rastreadas por el buscador y aquellas a las que no quieres que acceda. Esta guía paso a paso te ayudará a establecer los diferentes permisos que puedes dar a los robots de los buscadores para que analicen tu sitio web: Qué es y cómo se utiliza el archivo robots.txt.¿Cómo detectar los problemas de rastreo en una web?

Es muy sencillo detectar y evaluar los problemas de rastreo que podemos generar a lo largo del ciclo de vida de nuestro sitio web. Normalmente todos los buscadores ofrecen herramientas que nos reportan los problemas que detectan sus robots cuando analizan nuestro sitio web.
Si bien los pasos anteriormente expuestos son esenciales para conseguir que nuestro sitio web quede perfectamente añadido al índice del buscador, es importante comprender que durante ese proceso de adición al mismo pueden aparecer los problemas de rastreo porque es precisamente en ese proceso donde se producen los mismos.
0) Es fundamental estar dado de alta en las herramientas para webmaster de Google, para ello realiza la guía Aprende a utilizar las herramientas para webmaster de Google.
1) Acceso a las herramientas de rastreo de las herramientas para webmaster de Google. 
Al acceder a las herramientas de webmaster de Google, en su panel principal podrás ver un pequeño resumen  de la situación de los errores de rastreo tal como te muestro remarcado en rojo en la pantalla inferior:


Para acceder al detalle de los errores de rastreo que se han producido cuando los robots de Google han analizado tu sitio web puedes acceder, desde el propio panel de control haciendo clic en "Errores de rastreo" o en el menú de la izquierda de las herramientas, pulsando la opción "rastreo", tal como te remarco en rojo en la pantalla inferior:


2) Detectando los errores de rastreo. 
Los errores de rastreo se dividen en dos tipos fundamentales (dos secciones que dividen la página de errores de rastreo):
Errores del sitio: 
Compuesta por tres indicadores principales que se encuentran en la parte superior de la misma: DNS (estado de tu servidor de nombres), Conectividad del servidor (si el buscador y los clientes pueden conectar con él), Información de robots.txt (si tu archivo robots.txt está en buen estado y es correctamente legible). En la pantalla inferior puedes ver marcada en rojo la sección de "Errores del sitio":


 Errores de URL:

Esta sección reporta los errores que los robots de Google han encontrado al analizar las URLs de tu sitio web. Tiene tres "pestañas" principales: 
 Escritorio: donde se te indican las páginas web que están dando errores para la visualización en ordenadores de escritorio (PCs de escritorio o portátitles). 

Smartphone: Se indican aquellas páginas de tu web que han producido error y suponen un problema para el rastreo y muestra en los resultados de búsqueda de Smartphones. Los errores que salen aquí no se producen en los ordenadores de escritorio.

Teléfonos de gama baja: teléfonos anteriores a los smartphone o con navegadores básicos.  Los errores que salen aquí no se producen en los ordenadores de escritorio.
Te remarco en rojo la sección destinada a los errores URL producidos en el rastreo de tu sitio web: 


3) Evaluando y resolviendo los errores de rastreo. 

La visualización de "Errores de URL" tiene a su vez dos grandes divisiones, un gráfico estadístico llamado "Error del servidor" que te muestra a lo largo del tiempo los errores detectados. 
La sección "No se encuentra" donde se te proporciona la información detallada de las páginas cuyo error reportado por el robot rastreador de Google ha sido un 404: No se encuentra.
Error del servidor: Encontrarás en esta zona por cada tipo de dispositivo para el que se rastrea tu web los errores detectados.
Error en el servidor indica en el gráfico la evolución de errores que tu servicio de nombres (el servidor de tu web) ha devuelto. No suele ser frecuente que existan muchos errores en esta sección. En caso de aparecer un exceso de errores del servidor ponte en contacto con tu servicio proveedor para que revise porqué se pueden estar produciendo caídas en tu servicio. Suele tratarse de errores internos del servidor o caídas generales del servicio.


No se encuentra:
Esta sección suele contar siempre con algún error localizado. Verás igualmente un gráfico y justo debajo una tabla con la lista de URLs no encontradas. Casi siempre esta lista suele contener páginas que has eliminado y cuyo borrado no has reportado a Google o llamadas a páginas que ya no existen que estás haciendo desde tus propias páginas. 


Cada URL no encontrada te aparecerá en la lista de la tabla inferior bajo el gráfico. Para estudiar porqué no la encuentra puedes hacer "clic" en ella donde se te indicará porqué no se encuentra y desde dónde se enlaza para que edites las páginas que llamen a esa dirección "rota" y la elimines o la cambies:


En el detalle "No se encuentra" de la URL que te salió en la lista de errores podrás ver "Detalles del error" con la fecha del último rastreo donde se localizó, la fecha de la primera detección y la explicación técnica del error 404 (No se encuentra).


En "Enlaza desde" podrás visualizar las direcciones de las páginas web que están llamando a esa dirección que ya no se encuentra. Deberás editar las páginas que hacen la llamada que aquí se indican para borrar o cambiar la dirección a la que llaman, de manera que no vuelva a producirse el error.
Por último, las que se encuentran en la sección "Bloqueada" significa que son páginas que tu archivo robots.txt bloquea.
Una vez soluciones los problemas detectados, notifica a Google seleccionando en la lista las URLs que indican el error y pulsando el botón "Marcar como solucionado".


Por último, ten en cuenta que los errores que aquí aparecen, si no llegan a un número elevado no tienen porqué afectar en nada a tu web. Si conviene que los repares en la medida de lo posible para que cuando tus usuarios pulsen sobre ellos, no encuentren la página de error de tu web diciendo "¡Ops! no se encuentra la página".¿Dónde puedo ver también los problemas de rastreo en las herramientas para webmaster de Google?

Por último te resultará interesante la utilización de la herramienta Herramienta de mejoras HTML de las herramientas para webmaster de Google.Esta sección de las herramientas para webmaster de Google está destinada a reportar los errores de rastreo que se han producido cuando los robots del buscador han analizado tu web:


 Puedes acceder a esta función haciendo "clic" en la opción de menú de tus herramientas para webmaster llamada "Mejoras de HTML" y después fijándote en el apartado "Contenido no indexable", donde se te listarán todas aquellas páginas que no ha sido posible almacenar en el índice de Google.¿Cómo puedo verificar que la actividad de rastreo de mi sitio web se está realizando normalmente? 

En la opción de menú "Estadísticas de rastreo" puedes observar si tu web está siendo comprobada con normalidad por los robots rastreadores de Google.


Se te presentan unos sencillos gráficos donde podrás visualizar la actividad de rastreo sobre tu sitio web.¿Cómo puedo comprobar que mi sitio web se está rastreando adecuadamente tal como lo analiza el robot de Google?, ¿cómo puedo enviar al índice la página o páginas analizadas satisfactoriamente?. 

Una de las herramientas de rastreo más importantes que ofrece las herramientas de webmaster de Google es "Explorar como Google".
Explorar como Google:Se encuentra disponible dentro de las opciones del menú de "rastreo" de las herramientas para webmaster de Google, te la remarco en rojo en la pantalla inferior:


Esta importante herramienta te permite estudiar si una determinada página web de tu sitio, pudiendo ser ésta la principal, es perfectamente legible por el robot rastreador de Google.Su utilización es muy importante dado que después de realizar el rastreo también puedes solicitar directamente a Google que envíe la página al índice.Su funcionamiento es el siguiente:1) Por defecto, aparece la página "Explorar como Google" en la que aparece una página donde puedes teclear la URL o dirección de la página que deseas analizar. Si no escribes nada en la caja de texto directamente analizará tu página principal.Esto es importante porque es la primera página que el robot de Google puede analizar de tu sitio web y puede ofrecerte una idea general de cómo se procesará tu sitio web al completo. La página que te sale la puedes dejar tal cual, sin escribir nada en la página de texto y a continuación selecciona en el "combo gris" donde pone "Escritorio" el tipo de robot que vas a utilizar para rastrear la página. 


Si seleccionas Escritorio, sin escribir nada en la caja de texto, directamente analizará con el robot para ordenadores de escritorio (el más utilizado) la página principal de tu web. Igualmente, podrás seleccionar smartphone o el robot para móviles de gama baja, de tal forma que analices dicha página principal con los distintos robots que Google puede utilizar en tu web.2)  Una vez seleccionado "Escritorio" o el tipo de robot con el que deseas analizar tu página principal (o la página que escribas en su caja de texto) pulsa "OBTENER". De inmediato comenzará el análisis del robot de Google de tu página, si todo es correcto pondrá "Completo" con un símbolo verde indicando que el rastreo ha sido satisfactorio. Te remarco en rojo un resultado positivo en la lectura de la página principal de una web.


Al finalizar el análisis, junto al símbolo "Completo" te saldrá un botón donde pone "Eviar al índice". Ahí podrás o enviar directamente la página web analizada por el robot al índice de Google o que se envíen TODAS las páginas web que sean enlazadas desde la principal (probablemente toda tu web).


3) Si el rastreo fue satisfactorio, verás que al pulsar enviar al índice te sale una pequeña pantalla (como la que te he presentado en el pantallazo anterior) en donde se te ofrecen dos opciones:

Rastrear sólo esta URL: que te enviará al índice sólo la página web que has analizado. 

 Rastrear esta URL y sus enlaces directos: que enviará al índice de Google la página analizada y TODAS aquellas con las que enlace. Si lo haces desde tu página principal, dejarás en el índice casi seguro la mayor parte de tu sitio web.
La opción de rastreo de URL y enlaces directos sólo deberías realizarla la primera vez que des de alta tu web en las herramientas para webmaster de Google o cuando realices un cambio profundo en la estructuración de tu web. De todas formas, para prevenir un exceso de llamadas al robot, sólo dispondrás de aproximadamente 10 llamadas de esta clase al mes.Por último si deseas que tu web sea analizada como móvil, no olvides poner en la caja de texto el parámetro que avisa al robot que se está utilizando una URL para smartphone. Por ejemplo, en Blogger habría que seleccionar "smartphone" en el combo donde se escoge el tipo de robot y luego poner "/?m=1" en la caja de texto para que se analicen las páginas para smartphone de tu Blog. No pases por alto la adición al índice para smartphone para que en los resultados para móviles aparezca tu web correctamente configurada. ¿Cómo puedo verificar que mi sitemap es correcto para garantizar y mejorar el correcto rastreo?

Muchos usuarios suelen plantear el problema de que no todas sus entradas o páginas han sido rastreadas por Google. En la página de envío del sitemap de Google de las herramientas para webmaster se puede ver un gráfico para comprobar la cantidad de páginas y entradas enviadas al índice y cuáles han sido procesadas (remarcado en rojo en la pantalla infeior):


Puedes ver en "Enviado" todas las entradas o páginas web de tu sitio que has lanzado en tu sitemap. Indexadas son aquellas que han sido procesadas por el índice.NO todas las páginas o entradas de un sitio web tienen porqué ser procesadas o indexadas.Si estas no se indexan adecuadamente realiza la prueba de sitemap para ver si existen errores en el mismo:Pulsa el botón "Añadir o probar sitemap" tal como indico en la pantalla inferior 


 De esta manera podrás comprobar que todo lo que has enviado en tu sitemap está correcto. El proceso de adición al índice del sitemap no es instantáneo (la primera vez tarda varias semanas en realizarse).Si por alguna razón no se rastrea tu web al completo, se puede deber a diversas situaciones:
Entradas que no cumplan con las directrices de calidad de Google:

Chequea que tus páginas tengan la descripción de entrada, que estén correctamente etiquetadas y que cumplen con las normativas y políticas de Google. 

 Comprueba que el rastreo de tus páginas ha sido correcto. Es posible que no se añadan al índice entradas o páginas que no pueden ser rastreadas. 

 Puede tratarse de entradas que carecen de importancia dentro de tu página web o Blog.

Esto es todo lo que necesitas para dejar tu web perfectamente añadida al índice de Google. Cualquier duda exponla en los comentarios y trataré de ayudarte en todo lo posible.
Fuente: este post proviene de Diarios de la nube, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
Modificado:
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Etiquetas: generalseo

Recomendamos

Relacionado

SEO

Suele ser frecuente que el creador de contenidos en Internet pueda tener algunos problemas para añadir correctamente la información de su sitio web en el índice de Google o de cualquier otro buscador. A menudo se trata de simples avisos que no requieren una atención especial más allá de una sencilla corrección. Dichos avisos, no suelen plantear problemas graves para que Google pueda asimilar los c ...

Google posicionamiento SEO

Para que una página web sirva para algo es de vital importancia que aparezca en las búsquedas de Google. Un error gordísimo por el que el buscador seguramente nunca nos situará en las primeras posiciones es que haya direcciones de nuestra web que ya no existan porque hicimos cambios en ella (el típico error 404) pero que Google sigue buscándo y se encuentra con el dichoso error 404. Esto lo podem ...

general seo

A partir del 21-04-2015, Google puso en marcha la actualización de sus algoritmos de búsqueda para calificar con prioridad en los resultados de sus búsquedas aquellos sitios web o blogs que estén optimizados para su visualización en dispositivos móviles. En Diarios de la nube tienes una guía completa para ayudarte a preparar tu Blog o tu sitio web para la citada actualización, pero además será nec ...

seo y plugins

¿Cómo funciona el motor de búsqueda de Google: rastreo, indexación y clasificación? Aprende cómo funciona el motor de búsqueda de Google. Cómo encuentra, rastrea y clasifica las mil millones de páginas web que existen para ofrecerle los resultados que ve cuando busca en Google. Aunque los detalles del proceso son bastante complejos, conocer los conceptos básicos (no técnicos) de rastreo, indexació ...

general seo

En Internet pueden existir sitios web que enlacen al nuestro y afecten negativamente a nuestro posicionamiento. Unas veces por provenir de sitios de dudosa reputación u otras por ser directamente páginas generadoras de SPAM, el control periódico de los enlaces que apuntan a nuestro sitio web es importante. ¿Cómo enlaza un sitio web a otro en Internet? Es muy sencillo, desde una dirección externa a ...

Sin categoría

El Crawl Budget o Presupuesto de Rastreo es considerado uno de los factores de SEO técnico más importantes y estudiado por los SEOs. Pero, ¿realmente el Crawl Budget tiene tanta relevancia en el posicionamiento de una web? ¿Qué es el Crawl Budget o Presupuesto de Rastreo? El Crawl Budget o Presupuesto de Rastreo es el tiempo o número de solicitudes que nos da Google para revisar el contenido de nu ...

general seo

Mejorar el posicionamiento de un sitio web, requiere realizar acciones relacionadas con la optimización para motores de búsqueda. También conocido como SEO (Search Engine Optimization), aplicar un mínimo conjunto de aplicaciones, normas y reglas permitirán al sitio web optar a conseguir mejores posiciones en los resultados de las búsquedas que los usuarios realizan en su buscador. Analicemos 5 pas ...

SEO errores de rastreo Google Search Console ...

Tengo mi blog en WorsPress.com Hace un par de meses he notado un bajón muy importante de mi tráfico y rendimiento hacia mi blog, y chequeando en las estadísticas de WordPress, me di cuenta que el efecto fué si bien paulatino desde hace un año para acá, el de hace dos meses fue más abrupto. En un principio consideraba que el origen se debía a que durante el verano apenas he creado contenido en el b ...

SEO TODO GOOGLE errores de rastreo ...

Mi blog esta en Blogger Este post es continuación de Cómo solucionar errores de rastreo en blogs WordPress.com, por si has entrado aquí por error, la guía de acción es prácticamente diferente. La gran diferencia entre otras cosas entre Blogger y WordPress.com es la posibilidad de toquetear el html de la plantilla, modificar o personalizar el archivo robot, hacer redirecciones 301, cosa que nos fac ...

blogger google drive drive ...

Google Drive no es sólo un servicio de almacenamiento en la nube ofrecido por Google, se trata además de un conjunto de herramientas que pueden potenciar el funcionamiento de páginas web y Blogs. Blogger y muchas otras opciones para las publicaciones web no cuentan con determinados servicios relacionados con el almacenamiento de archivos de Google Drive que le permiten extenderse más allá de su pr ...