Temas etiquetados como: ‘Programación’

Descubre la indexación del futuro: Google SiteMap

12 Julio, 2005

Google nos propone lo que va a ser la nueva forma de indexar páginas web.


Los motores de búsqueda como Google y Yahoo, utilizan arañas para recoger la información de las páginas web que hay publicadas en Internet. Una vez tienen la información, la procesan para poder ordenar rápidamente los resultados de búsqueda, en función de un algoritmo determinado, cuando un usuario acude a sus respectivas páginas web e inquiere algún término o alguna frase.

Las arañas de los buscadores visitan periódicamente las páginas web que están publicadas en Internet y actualizan automáticamente la información acerca de su contenido.

Hasta ahora, las arañas entraban en el directorio raíz de un dominio, buscaban el fichero robots.txt para asegurarse de que el site deseaba ser indexado y luego procedían a visitar todos los enlaces que encontraban en la página web, registrando así todo el contenido de la página.

Google SiteMaps va a revolucionar esta forma de indexar las páginas web.

No es solo que Google ahora lea con más detenimiento los mapas del site que la gente incluye en sus páginas web… no es nada de esto… es una nueva forma radical, de indexar el contenido de las páginas. Google nos propone la creación de un sitemap en XML siguiendo unas especificaciones determinadas que darán toda la información a sus arañas y que les permitirá el acceso a urls que hasta ahora podían haber estado escondidas por diversos motivos ajenos a la voluntad de los webmasters.

Google desea poder acceder a todo el contenido de las páginas web de la forma más fácil y eficiente. Tal como ahora está planteada la indexación de páginas, aun siendo mucho más eficiente que los índices humanos que teníamos antaño (quien no recuerda haber ido a un buscador, haber insertado a mano la definición de nuestro site, las palabras clave por las que deseábamos ser encontrados y la URL del site… pero esto es ya prehistoria internáutica), lo que Google nos plantea ahora es muchísimo mejor.

Todo consiste en poner a la disposición de las arañas un sitemap especial.

Para crear este sitemap, basta con disponer una aplicación que se instala en nuestro servidor (hay versiones para todos los sistemas operativos) y que crea un mapa del site en un formato determinado. La aplicación que nos propone Google puede generar el mapa a partir de las URL de la página web, a partir de los directorios de la página web, o a partir de los logs del servidor (ideal para páginas dinámicas).
Una vez tenemos el sitemap hecho según las especificaciones de Google, podemos darlo de alta en Google SiteMaps. Automáticamente y en menos de 4 horas, Google lo habrá indexado.

Google permite que los webmasters creen un cron que genere un nuevo mapa hasta cada hora (para sites con mucha renovación de contenido) y que haga el submit del mapa automáticamente en Google Sitemaps. De esta manera, las arañas conocerán de inmediato las nuevas páginas creadas y las podrán incorporar al índice.

Ventajas de esta aplicación:

No importa lo mal que tengas la página web a nivel de caminos para las arañas… con un site map creado por el Sitemap Generator, las arañas de Google siempre encontrarán las url de todas tus páginas.

Otra gran ventaja es la rápida indexación del contenido de todo el site. En menos de 4 horas, las arañas han visitado hasta 50.000 enlaces de nuestra página web. Para webs con más URLs, Google recomienda realizar diversos sitemap y disponer de un índice de sitemaps.

Desventajas de esta aplicación:

Requiere algo de conocimientos en programación, por lo que o bien los ISP ofrecen este servicio como valor añadido para sus clientes o bien muchas páginas web no dispondrán de ese servicio y deberán seguir siendo indexadas por arañas normales y corrientes.

Los sitemap que ya están disponibles en la mayor parte de páginas web no son compatibles con el formato de Google. Google desea un documento en XML con unas especificaciones determinadas.

Con este proyecto, google busca sin duda, la forma de mejorar la indexación de las páginas web y poder contar en sus índices con páginas que hasta ahora se perdían en un mar de enlaces dentro de nuestros sites.

Google ha creado el Sitemap Generator y el servicio de indexación Express y lo ofrece de forma completamente gratuita… será interesante ver la reacción de Yahoo ante esto, ya que Yahoo ofrece el servicio de indexación rápida previo pago de 49$, 20$ o 10$ según el número de url que deseemos indexar de forma acelerada.

De momento no disponemos de resultados de primera mano respecto a la efectividad de la indexación a través del SiteMap de Google. En cuando tengamos instalado el nuevo sitemap en varias páginas web y estemos en disposición de hacer comparativas de número de incremento en páginas indexadas y de frecuencia de visititas de arañas, escribiremos un nuevo artículo informando de los resultados. Nos vemos entonces.

Nota posterior: Han pasado algunos meses desde que escribimos este artículo. Los resultados han sido muy buenos. Toda una web queda indexada de nuevo en menos de 24 horas. Es ideal para cuando una nueva web sale a la red. La puedes tener indexada en un momento, sin tener que esperar meses y meses a que las arañas de Google lean todo su contenido.

Información complementaria:

URL con información acerca del sitemap de Google:
https://www.google.com/webmasters/sitemaps/docs/en/about.html

URL con especificaciones acerca del sitemap de Google:
https://www.google.com/webmasters/sitemaps/docs/en/protocol.html

Google libera el acceso a los APIs de sus AdWords

29 Enero, 2005

Hace un tiempo que corre el rumor de una posible liberalización de los APIs que controlan los AdWords de Google. Hasta ahora los rumores eran negados por el gigante de Internet, pero desde ayer la cosa ha cambiado.

Ya es posible solicitar el acceso a los APIs.

Pero ¿en qué consisten los APIs de AdWords de Google?. Básicamente es un código de programación – hasta ahora no modificable por nadie que no fuera Google – que permitirá a los anunciantes y a otras empresas utilizar su propio interfaz de software.

Por un lado es un poco decepcionante si se tienen en cuenta las expectativas que había levantado el rumor, ya que los APIs no añaden nuevas funcionalidades a los AdWords. Con los APIs puedes hacer lo mismo que puedes hacer con el panel de control que ya usan los anunciantes de Google. En esencia de lo que estamos hablando es de un mayor grado de personalización, de la posibilidad de afinar en cualquiera de estos tres aspectos:

  • Gestión de las campañas.
  • Informes de las campañas.
  • Estimación de tráfico.

Para evitar abusos o spam de AdWords, los APIs estarán asociados a un número máximo de operaciones por mes para cada anunciante. Cada uno de estos números de operaciones máximos se calcula de forma individual en base a las cuentas existentes.

Con este movimiento Google busca conseguir dos cosas. La primera es proporcionar APIs gratuitos que permitirán la expansión a grandes empresas de publicidad y la entrada en mercados hasta ahora poco accesibles. Y la segunda es que se les da un poco más de control a los anunciantes.

Hace un tiempo Amazon consiguió llegar a lugares impensables y con funcionalidades increíbles al liberalizar ciertas APIs y permitir que programadores de todo el mundo pudieran consultar el catálogo de Amazon en casi cualquier dispositivo. Como consecuencia de aquello a día de hoy existen formas realmente originales y potentes de usar Amazon para el usuario. Un ejemplo es algo que ya es realidad en algunos países asiáticos: una persona se para delante de una zapatería y quiere comprobar si unos zapatos son caros. Escanea el código de barras con su móvil (funcionalidad que ya incluyen algunos móviles en Japón y Corea) y entonces el producto se compara con el precio en Amazon y se obtienen ventajas y descuentos en caso de comprarlo online.

En el caso de Google la liberalización de APIs no es tan amplia, pero es un primer paso indiscutible hacia la apertura a nuevos mercados y la consolidación de su posición dominante.

Si se produce la evolución lógica previsible es más que probable que en meses o incluso semanas veamos los primeros resultados de esta nueva flexibilidad en los AdWords.

Enlaces de interés:

Página General sobre los APIs de AdWords

Página informativa de Google para solicitar el acceso a las APIs

Blog de los API AdWords

Foros de discusión sobre los APIs