¿Qué son los robots de buscadores?

Los robots WWW, wanderers, crawlers o spiders son pequeños programas mandados (por lo general) por los buscadores (google, yahoo, msn, etc..) que analizan o escanean millones de páginas en la red, por lo general saltando de una a otra por medio de los vínculos que cada página les ofrece.

¿Qué quiere decir esto?

Básicamente que van por la red buscando documentos, una vez encontrado uno, continúan su búsqueda e indexación con los documentos a los que hace referencia el primero que encontraron.Los navegadores de Internet no son robots, ya que son manejados por humanos y no adquieren documentos referenciados automáticamente (a excepción de las imágenes en una página por ejemplo).

¿Para qué se usan?

  • Indexar.
  • Validación HTML.
  • Validación de links.
  • Monitoreo de novedades o “qué hay de nuevo?”.
  • Mirroring.

¿Son malos estos pequeños bichos?

  • Algunos de estos robots, pueden llegar a sobresaturar redes y servidores, esto pasa principalmente cuando el que los hace es inexperto, por lo tanto el comportamiento del robot es bastante impredecible. Aunque actualmente hay suficiente información como para que el que los haga los haga bien y evitar todos estos problemas.
  • Estos robots a final de cuentas son programados por humanos, y los humanos por lo general cometemos muchos errores o no vemos más alla hacia las implicaciones que puede tener alguna de nuestras acciones. Es por esto que se tiene que ser muy cuidadoso y los autores de los robots tienen que programarlos de modo que sea dificíl que la gente cometa errores con consecuencias graves.
  • A pesar de estos puntos en contra, la mayoría de robots esta diseñado bastante responsable e inteligentemente, no causan problemas y proveen de un servicio bastante valioso que de otra forma sería demasiado tardado. Así que en conclusión, los robots no son malos ni buenos por naturaleza, tan solo necesitan bastante atención.

¿Cómo deciden en qué buscar?

Por lo general comienzan desde una base de datos fija de direcciones y de ahí parten expandiéndose basándose en las referencias. Estas bases de datos pueden ser, y son por lo general listas de servidores, páginas de “Whats New”, y los sitios más populares de la red. Algunos buscadores te ofrecen una sección en la que puedes mandarles tu página para que ellos manden un pequeño robot a indexarla y agregarla a su base de datos.

¿Cómo decirles a los robots que indexar y que cosa no indexar?

Aquí es en dónde empieza el asunto un poco más humanamente interactivo , ya que uno como administrador de un sitio puede o no querer que un robot haga que aparezcamos en los buscadores, o tal vez preferimos que cierto contenido no sea indexado (cosas privadas, temporales, o que simplemente no nos da la gana que aparezcan indexadas), o que por ejemplo sólo ciertos buscadores nos indexen, o evitar que solo unos cuantos no nos indexen, las posibilidades son bastante grandes. Es entonces cuando entra en juego el famoso archivo robots.txt el cual tiene que ser colocado en la raíz de nuestro servidor ya que al momento que un robot llega a nuestro servidor, por lo general busca este archivo para saber que restricciones le hemos dado.

Aprende a crear tu archivo robots.txt:

Robots.txt

Es un archivo simple de texto en el que se escriben las instrucciones para los robots, un ejemplo simple de lo que podrías poner en tu archivo de texto, para permitir que los robots indexen tu página sería algo como esto:

User-Agent: *
Disallow:

Esto lo único que le dice a nuestros amigos robots es que cualquiera de ellos puede indexar lo que se le de la gana, ahora que si queremos limitarlos podemos hacerlo de la siguiente manera por ejemplo:

User-Agent: Googlebot
Disallow: /*.gif

En este caso lo que estamos haciendo es decirle al robot de Google, que no queremos que indexe nuestras imágenes con terminación .gif… se pueden hacer muchas combinaciones, como por ejemplo evitar que indexen algún directorio en particular o cosas más especificas, tanto como nuestra imaginación nos permita:

User-agent: *
Disallow: /images/
Disallow: /stats/

Aquí le dimos chance de indexar todo excepto los directorios “images” y “stats” , se pueden hacer muchas combinaciones posibles, depende de nuestras necesidades. Existe otro método para comunicarnos con los robots, y este es por medio de la sección de meta tags en tu código HTML, de esta forma podemos especificar otros parámetros y tener un control más estricto página por página. Podemos especificarle por ejemplo si queremos o no que guarde nuestras páginas en el cache del buscador, si queremos que las indexe, y si le permitimos o no el seguir los vínculos en nuestra página, algunos ejemplos serían los siguientes:

<META NAME=\”ROBOTS\” CONTENT=\”NOINDEX, NOFOLLOW\”>

(este le dice a cualquier robot que no quieres que indexe tu página, y que ni se le ocurra seguir los links)

<META NAME=\”GOOGLEBOT\” CONTENT=\”NOARCHIVE\”\”>(y en este caso le estas diciendo al robot de Google que ni siquiera se le ocurra guardar en su memoria cache tu página)

¿Todos los Robots son amables?

Lamentablemente no, hay muchos robots que son realmente rebeldes y no hacen caso a lo que hayas hecho para restringirlos, pero bueno eso ya quedará en su conciencia de robots malcriados, por lo pronto lo que te ganas tu es que los robots de buena crianza sepan que hacer con tus contenidos y evitarte esos molestos reportes de error de archivo no encontrado en tu servidor.

Fuente: Alquimistas del Diseño

Modificado de Balú en Baluart.

Un comentario para “¿Qué son los robots de buscadores?”

  1. […] saber dónde se quedan paradas aquí tienes un par de simuladores de araña de buscadores que podrás lanzar contra tu web para ver el resultado: Poodle Predictor. Summit Spider […]

Área de discusión - Deja tu comentario