Temas etiquetados como: ‘robots.txt’

Obama y el robots.txt de la Casablanca

24 Febrero, 2009

Se ha hablando mucho acerca de cómo Barack Obama ha aprovechado internet para dar a conocer su candidatura y para conseguir movilizar votantes. También se ha comentado en muchos blogs el ambicioso plan tecnológico de Obama para EEUU (puede leerse aquí).

Pero una de las cosas que me ha llamado más la atención y que pocas personas han advertido: el cambio que ha sufrido el Robots.txt de la página web de la Casablanca, muy en línea con lo que Obama predica.

¿Qué es un Robots.txt?

Es un archivo de texto que contiene instrucciones sobre las páginas visitables y las no visitables por los Robots, de una página web. Es decir, indica qué partes de la página web no deben ser escaneadas por los robots.

Normalmente, se trata de contenido que aparece en la página web, pero sólo se desea que sea accesible a la gente que navega por la web, no se desea que este contenido aparezca indexado en los buscadores. También se utiliza cuando un gestor de contenidos genera contenido duplicado y por lo tanto, penalizado por los buscadores.

Este archivo se crea siguiendo las instrucciones que podemos encontrar aquí: Robots, y todos los robots que siguen el “Protocolo de Exclusión de Robots“ se comprometen a hacer caso de estas instrucciones.

Si una página web no tiene creado este archivo de texto, los robots entienden que pueden indexarla (aunque al haber buscado el robots.txt de esa página los robots generan un error 404 y por lo tanto, es recomendable que se cree una página en blanco y se suba por FTP con el nombre de Robots.txt para que de esta manera, los 404 que se generen en la página serán reales y puedan ser depurados por el webmaster).

Volvamos al Robots.txt de la Casablanca

Hasta hace unos días, cuando explicaba en clase qué es un archivo Robots.txt y qué es el “Protocolo de Exclusión de Robots” ponía varios ejemplos para ilustrar los diferentes tipos de Robots.txt que podemos crear para dar instrucciones a los robots indexadores:

  • Una página robots.txt en blanco
  • Una página robots.txt con instrucciones más o menos “normales”
  • Una página robots.txt totalmente exagerada y fuera de lugar.

Pues bien… Obama me ha “saboteado” los ejemplos y se ha cargado mi ejemplo de mala praxis en cuestión de Robots.txt: El webmaster de la nueva página web de la Casablanca ha creado un nuevo Robots.txt perfectamente realizado, claro y conciso.

El webmaster de George Bush Jr., había creado un Robots.txt con miles y miles de páginas con el acceso prohibido a los robots. Ni decir cabe que… no había nada interesante en ese contenido (alguna vez me había dedicado a ir leyendo lo que no querían que fuese indexado… fotos de la first lady, discursos, etc…). Pero mostraba bien que los de la Casablanca tenían un concepto un tanto arcaico de lo que es internet y sobre la publicación de contenido.

El nuevo websmaster, en este sentido, muestra tener mucho más claro lo que debe ser la página web de una institución como la Casablanca.

Vale… ¿pero cómo era ese Robots.txt?

Por suerte, en las diapositivas de mis clases siempre incluyo pantallazos acerca de lo que explico, no sea que me falle la conexión a internet o que allí donde dé la clase no tengan conexión… (que triste tener que pensar siempre en esta posibilidad).

Así que junto a estas líneas incluyo la imagen que tengo archivada y que ahora ya pasa a ser historia…

(Observa la barra de scroll… es la que muestra la magnitud del listado)

Robots.txt de la Casablanca

La página actual la puedes ver aquí: Robots.txt de la Casablanca.

Si deseas más información sobre cómo crear un Robots.txt o para qué sirve, la encontrarás aquí: Robots.txt y también en el Curso Gratuito de Posicionamiento en Buscadores de nuestra página web: Curso de Posicionamiento en Buscadores

¿Cómo se indexa el https?

1 Noviembre, 2006

La indexación del https es uno de esos misterios que hace la vida de los SEO más interesante. Si bien sabemos que es posible indexarlo en la mayor parte de los buscadores, casi nadie sabe cómo conseguirlo en el mínimo tiempo posible.

¿Qué es el https?

El https es la versión segura del protocolo http. La diferencia entre uno y el otro es que el primero transmite los datos cifrados, y el segundo los transmite sin cifrar.

El sistema https utiliza un cifrado basado en las Secure Socket Layers (ssl) para enviar la información.

La decodificación de la información depende del servidor remoto y del navegador utilizado por el usuario.

Es utilizado principalmente por entidades bancarias, tiendas en línea, y cualquier tipo de servicio que requiera el envío de datos personales o contraseñas.

¿Cómo funciona el https?

Contrariamente a lo que piensa mucha gente, el https no impide el acceso a la información, sólo la encripta cuando la transmite. De ahí que el contenido de una página web que utiliza el protocolo https pueda ser leído por las arañas de los buscadores. Lo que no puede ser leído es el contenido que se envía desde esa página web a su servidor, por ejemplo, el login y la contraseña de acceso a una zona privada de la página web.

El puerto estándar para este protocolo es el 443.

¿Cómo sabemos que realmente se indexa el https?

Google indexa https desde inicios del 2002 y progresivamente, el resto de buscadores han ido adaptando su tecnología para indexar también el https.

El último buscador en hacerlo ha sido MSN, que lo consiguió en junio 2006.

Si buscamos “https://www.” o bien inurl:https en los principales buscadores, encontraremos páginas https indexadas en ellos.

¿Cómo podemos indexar nuestro https?

En principio, de forma natural podemos indexar nuestras páginas en https, pero como este protocolo transmite la información de forma mucho más lenta, algunas veces las arañas no consiguen descargar las páginas en el tiempo que tienen establecido y se van sin indexarlo. Este es el principal problema con el que nos podemos encontrar. Lo resolveremos intentando disminuir el tiempo de descarga de estas páginas.

Cómo podemos acelerar la indexación del https

Existen dos técnicas:

  1. Google Sitemap: Incluir en nuestro sitemap las páginas https (nos referimos al google sitemap, no al sitemap para humanos), y darlo de alta en sitemaps de google.
  2. Guerrilla: repartir por todo Internet enlaces que vayan a nuestras páginas https, y conseguir de esta forma que las arañas que están indexando las páginas donde tengamos los enlaces, entren también en la parte https de nuestra web.

Cómo podemos hacer que no se indexe nuestro https

No es tan fácil cómo parece. No nos sirve incluir las páginas https en nuestro robots.txt. Cada puerto necesita su propio robots.txt, así que deberemos crear un robot.txt para nuestras páginas http y otro para nuestras páginas https. O sea, deberemos tener también una página llamada

https://www.nombredelapagina.com/robots.txt

Si necesitas ayuda para indexar o desindexar tus páginas https, no dudes en contactarnos. Estaremos encatados de asistirte.

Información complementaria:

Blog de MSN acerca de indexación – Artículo donde explican que MSN empieza a indexar https
http://blogs.msdn.com/livesearch/archive/2006/06/28/649980.aspx

Información de Google acerca de cómo no indexar https:
http://www.google.es/support/webmasters/bin/answer.py?answer=35302

Más información sobre sitemaps de google:
SiteMaps de Google
http://www.geamarketing.com/articulos/Descubre_indexacion_futuro_Google_SiteMap.php

Curso online, gratuito, de posicionamiento en buscadores: Curso de posicionamiento en buscadores
http://www.geamarketing.com/posicionamiento_buscadores.php