Obama y el robots.txt de la Casablanca

24 Febrero, 2009 por Montse Dejar una respuesta »

Se ha hablando mucho acerca de cómo Barack Obama ha aprovechado internet para dar a conocer su candidatura y para conseguir movilizar votantes. También se ha comentado en muchos blogs el ambicioso plan tecnológico de Obama para EEUU (puede leerse aquí).

Pero una de las cosas que me ha llamado más la atención y que pocas personas han advertido: el cambio que ha sufrido el Robots.txt de la página web de la Casablanca, muy en línea con lo que Obama predica.

¿Qué es un Robots.txt?

Es un archivo de texto que contiene instrucciones sobre las páginas visitables y las no visitables por los Robots, de una página web. Es decir, indica qué partes de la página web no deben ser escaneadas por los robots.

Normalmente, se trata de contenido que aparece en la página web, pero sólo se desea que sea accesible a la gente que navega por la web, no se desea que este contenido aparezca indexado en los buscadores. También se utiliza cuando un gestor de contenidos genera contenido duplicado y por lo tanto, penalizado por los buscadores.

Este archivo se crea siguiendo las instrucciones que podemos encontrar aquí: Robots, y todos los robots que siguen el “Protocolo de Exclusión de Robots“ se comprometen a hacer caso de estas instrucciones.

Si una página web no tiene creado este archivo de texto, los robots entienden que pueden indexarla (aunque al haber buscado el robots.txt de esa página los robots generan un error 404 y por lo tanto, es recomendable que se cree una página en blanco y se suba por FTP con el nombre de Robots.txt para que de esta manera, los 404 que se generen en la página serán reales y puedan ser depurados por el webmaster).

Volvamos al Robots.txt de la Casablanca

Hasta hace unos días, cuando explicaba en clase qué es un archivo Robots.txt y qué es el “Protocolo de Exclusión de Robots” ponía varios ejemplos para ilustrar los diferentes tipos de Robots.txt que podemos crear para dar instrucciones a los robots indexadores:

  • Una página robots.txt en blanco
  • Una página robots.txt con instrucciones más o menos “normales”
  • Una página robots.txt totalmente exagerada y fuera de lugar.

Pues bien… Obama me ha “saboteado” los ejemplos y se ha cargado mi ejemplo de mala praxis en cuestión de Robots.txt: El webmaster de la nueva página web de la Casablanca ha creado un nuevo Robots.txt perfectamente realizado, claro y conciso.

El webmaster de George Bush Jr., había creado un Robots.txt con miles y miles de páginas con el acceso prohibido a los robots. Ni decir cabe que… no había nada interesante en ese contenido (alguna vez me había dedicado a ir leyendo lo que no querían que fuese indexado… fotos de la first lady, discursos, etc…). Pero mostraba bien que los de la Casablanca tenían un concepto un tanto arcaico de lo que es internet y sobre la publicación de contenido.

El nuevo websmaster, en este sentido, muestra tener mucho más claro lo que debe ser la página web de una institución como la Casablanca.

Vale… ¿pero cómo era ese Robots.txt?

Por suerte, en las diapositivas de mis clases siempre incluyo pantallazos acerca de lo que explico, no sea que me falle la conexión a internet o que allí donde dé la clase no tengan conexión… (que triste tener que pensar siempre en esta posibilidad).

Así que junto a estas líneas incluyo la imagen que tengo archivada y que ahora ya pasa a ser historia…

(Observa la barra de scroll… es la que muestra la magnitud del listado)

Robots.txt de la Casablanca

La página actual la puedes ver aquí: Robots.txt de la Casablanca.

Si deseas más información sobre cómo crear un Robots.txt o para qué sirve, la encontrarás aquí: Robots.txt y también en el Curso Gratuito de Posicionamiento en Buscadores de nuestra página web: Curso de Posicionamiento en Buscadores

Comparte: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • del.icio.us
  • BarraPunto
  • Facebook
  • Google Bookmarks
  • Meneame
  • Technorati
  • TwitThis

Posts Relacionados:

Publicidad

3 comentarios

  1. Shawe dice:

    Yo veo eso en el robots de la casablanca:

    User-agent: *
    Disallow: /includes/
    Disallow: /search/
    Disallow: /omb/search/

  2. Montse dice:

    Ciertamente Shawe… el nuevo robots.txt es el que tu indicas, y este es un robots.txt correcto.
    El antiguo es el que muestro en la imagen.

Trackbacks /
Pingbacks

  1. meneame.net

Deja un comentario