The Seven Codes Idea guardada 0 veces
Sé la primera persona en valorar esta idea Valorar

¿Qué es Robots.txt y para qué sirve? Yo robots Parte I



Muchas webs tienen un archivo llamado “robots.txt” este archivo ayuda a las webs a evitar que los buscadores indexen directorios o otro contenido que no tendríamos que ver.
Robots.txt es un archivo de texto (no HTML) que se coloca en un sitio o página, para indicar a los robots de búsqueda qué páginas desea que no visiten. El archivo Robots.txt no es obligatorio para los motores de búsqueda, pero generalmente los motores de búsqueda obedecen lo que se les pide que no hagan y, a veces, este fichero, puede resultar muy útil.

Como veremos más adelante hay buscadores que indexan contenidos por mucho que la web no quiera y esté el archivo “robots.txt”.Por ejemplo en la dirección de http://www.google.com/robots.txt encontramos un archivo en texto plano , si nos fijamos en la parte principal hay el estoUser-agent: *
Disallow: /search
Disallow: /sdch

el User-agent: * indica que este archivo sea reconocido para todos los buscadores.
Después tenemos Disallow: /search el disallow evita la indexación de una carpeta o archivo, en este caso no indexara los contenidos del directorio search ni sdch.
Este es el típico archivo “robots.txt” con el que nos encontraremos la mayoría de veces.
Como vemos el archivo “robots.txt” también es una fuente de información ya que si lo bloquean sera por que hay algo interesante ¿no?.
Evitar que ciertos bots que analizan los sitios web con el protocolo de robots.txt ≪ °° ≫



≪ °° ≫
El hecho de que coloque un archivo robots.txt es algo así como poner una nota "Por favor, no entrar" en una puerta desbloqueada, por ejemplo, no se puede evitar que los ladrones entren a tu casa, pero una persona sensata no lo haría.

¿Qué es robots.txt?

robots.txt es un archivo público, que debe estar en la raíz de tu web, donde se hacen una serie de recomendaciones a los robots qué deben y qué no deben indexar en los buscadores.
Es genial cuando los motores de búsqueda visitan con frecuencia su sitio e indexan su contenido, pero a menudo hay casos en que la indexación de partes de su contenido puede penalizarle.
Por ejemplo:

Si tiene dos versiones de una página (una para ver en el navegador y otra para imprimir), preferiría que se excluyera la versión de impresión del rastreo para evitar la detección de contenido duplicado.

Si tiene datos sensibles que no desea que el mundo vea, también es preferible que los motores de búsqueda no indexen estas páginas.
Claro, y tú me preguntarás ¿Qué hago si no quiero que me indexen una parte de la web?
Buena pregunta. Puede haber partes de la web que por ser privadas, por contener contenido que, por la razón que sea, no quieres que estén indexadas. Pues para eso usarás el archivo Robots.txt.
Es importante aclarar que Robots.txt no es una forma de impedir que los motores de búsqueda rastreen su sitio (es decir, no es un cortafuegos o un tipo de protección con contraseña).

Hay muchos tipos de robots y cada uno tiene una misión.

Googlebot: El robot de Google.

Googlebot-Image: El indexador de imágenes de Google.

Bingbot: El robot de Bing.

YandexBot: De Yandex, el buscador ruso.

Roger: De Moz

BaiduSpider: El del buscador chino Baidu.

ia_archiver: El de Alexa, que también utiliza Wayback Machine (una web que presenta webs antiguas. En este enlace puedes ver cómo era la web que tenía en 1998)
Así que con Robots.txt le podemos decir a un crawler (no me flipado, es su nombre en inglés) cosas como estas:

Partes de tu web que no quieres que sean accesibles

Partes de tu web que sí quieres que sean accesibles

Impedir que el buscador valore diferentes entradas a un mismo contenido como contenido duplicado

Decirle que no acceda a partes de la web con código u otros elementos

Decirle al robot donde está el xml ≪ °° ≫


≪ °° ≫

Estarás de acuerdo conmigo que este archivo es un inventazo en el proximo blog veremos como crear estos archivos + como podemos ver que son vulnerables trataremos de hackear o tener accesos a las web creando nuestra herramientas para indexar.

Si quieres saber más sobre los tipos de robots (también se les llaman “Bots”), en estos enlaces encontrarás listas completas:

https://support.google.com/webmasters/answer/6062596?hl=es&ref_topic=6061961

https://support.google.com/webmasters/answer/6062608?hl=es

https://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots

https://support.google.com/webmasters/answer/6062598

⇜⇝⇜⇝⇜⇝⇜⇝


------------------------------------------------
Únete a la comunidad Cyber Hacking




ADVERTENCIA: NO INTENTE HACER UN ATAQUE SIN EL PERMISO DE PROPIETARIO DEL SITIO WEB. ES UN PROPÓSITO EDUCATIVO SOLAMENTE. NO ES RESPONSABLE DE NINGUN TIPO DE PROBLEMA ILEGAL.

PERMANECE LEGAL. GRACIAS!

Si tienes algún problema, deja un comentario.

Follow @LPericena

Mi nombre es Luishiño aquí es donde me gusta escribir sobre temas que en su momento me interesan. Aveces sobre mi vida personal y principalmente cosas de programación ,desarrollo web.Aplicaciones,Software, programas que yo mismo las desarrollo y cosas básicas de informática.

Fuente: este post proviene de The Seven Codes, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

Recomendamos

Relacionado

wordpress Linux noticia ...

¿Cómo crear un Crawler o Spider para la automatización para archivos robot? Parte III

Un Web crawler indexador web, indizador web o araña web es un programa informático que navega he inspecciona las páginas del World Wide Web (www) por Internet de una manera predeterminada, configurable y automática, realizando acciones programadas en el contenido crawler. Los motores de búsqueda como Google y Yahoo utilizan rastreadores como medio de proporcionar datos de búsqueda, es decir, est ...

blog top seo noti google #notigoogle ...

La exclusión de Robots será un STANDART ¿Estás preparado?

La exclusión de robots dentro del archivo Robots.txt será un standart. Así lo anunció Google en un tweet donde ha hecho público el artículo que explica; cómo después de 25 años se ha hecho imperativa la necesidad de aplicar la especificación del protocolo de exclusión de robots. ¡Vamos a ver de qué se trata! ¿Qué es la exclusión de Robots? Este es un protocolo que se dicta por medio de un comando: ...

blog top seo noti google #notigoogle ...

Robots.txt ¡SÚPER GUÍA Simplificada! de los NUEVOS Comandos

Esta mañana fueron publicados los nuevos comandos estándares del archivo robots.txt en un artículo oficial de Google webMasters. También tienen sus fundamentos en uno de los lenguajes padres de la programación: C++. Vamos a ver estas novedades y cómo aplicarlas para exprimirles todo el jugo. ¿Listo? Biblioteca de comandos Esta biblioteca ha sido modificada ligeramente y publicada en código abier ...

GUÍAS Programación Web Herramientas Técnicas SEO

¿Google sabe que estás ahí?

Una de las primeras preguntas que todo el mundo se hace nada más tener publicada su página web o blog es la de cómo aparecer en Google. El error más grave que se puede cometer por parte de un webmaster es la de no preocuparse por aparecer en los principales buscadores de internet. Los buscadores cuentan con herramientas de todo tipo para rastrear la World Wide Web pero si confíamos en que sean ell ...

BLOGGER blogging indexabilidad ...

SEO: Cómo indexar con un blog de Blogger

El proceso de indexación con un blog de Blogger, para que las SERP´S de búsqueda te encuentren. no es nada complicado. Problemas para indexar recursos bloqueados con robots.txt en Blogger? Mira el siguiente video →↓ El asunto es darle las órdenes correctas a los robots para lograr la indexación requerida con la tecnología de Blospot sin producir que se indexen archivos basura o cosas que no son n ...

seo google informática

Search engine optimizacion

Poco a poco, quiero ir conociendo y compartiendo con vosotros los términos utilizados en el mundo de las webs y de los blogs, para además de aportar contenido a internet, saber que suelo pisamos. Por ello hoy conoceremos un término conocido como SEO (el posicionamiento en los buscadores). Todos los que aportamos contenido a la red de redes, lo aportamos para ser encontrados y localizados por los p ...

general seo

5 pasos básicos para un buen posicionamiento web

Mejorar el posicionamiento de un sitio web, requiere realizar acciones relacionadas con la optimización para motores de búsqueda. También conocido como SEO (Search Engine Optimization), aplicar un mínimo conjunto de aplicaciones, normas y reglas permitirán al sitio web optar a conseguir mejores posiciones en los resultados de las búsquedas que los usuarios realizan en su buscador. Analicemos 5 pas ...

SEO

Cómo solucionar problemas con recursos bloqueados de una web en Google Search Console

Suele ser frecuente que el creador de contenidos en Internet pueda tener algunos problemas para añadir correctamente la información de su sitio web en el índice de Google o de cualquier otro buscador. A menudo se trata de simples avisos que no requieren una atención especial más allá de una sencilla corrección. Dichos avisos, no suelen plantear problemas graves para que Google pueda asimilar los c ...

#SEO #BlogTopSEO #NotiGoogle ...

SEO técnico ¡Los 7 ASPECTOS! que todos deberían saber

En este artículo te voy a compartir algunos conocimientos básicos sobre el lado más técnico del SEO. Estos aspectos pueden ser la diferencia entre un sitio que rankea en las primeras posiciones y un sitio que no rankea en absoluto. El SEO técnico no es fácil, pero aquí te explico, en lenguaje sencillo; en que debes fijarte (si lo estas haciendo tu) o pedirle a tu experto de SEO para que tu sitio ...

DesarrolloWeb SEO ecommerce ...

Pasos para Posicionar una Web en Google

¿Sabías que hay más de 200 factores que afectan al SEO de tu página? El control de todos ellos sería lo ideal, pero para empezar deberías saber, cuales son los pasos más importantes para posicionar tu web en Google. Un buen consejo, es que acudas a una agencia de marketing digital especializada en SEO, para no cometer errores que impliquen costes y tiempo, como por ejemplo, iSolated, la mejor agen ...