Temas etiquetados como: ‘indexación’

Unidad 4: ¿Cómo puedo saber cuantas páginas tengo indexadas en un buscador?

25 Enero, 2008

Existe un comando en Google que te permite saber cuantas páginas tienes indexadas. Este mismo comando suele funcionar en otros buscadores:

  • Escribe en la cajita buscadora de Google: 

    site:www.paginaweb.com

    (Substituyendo “paginaweb” por el nombre de la web que deseas analizar, y sin poner un espacio entre site: y la URL o no funcionaría)

Esta búsqueda te mostrará el número de páginas que Google tiene indexadas para la URL paginaweb.com. Realiza más búsquedas con otras URL y ves comparando los resultados.

Si deseas saber cuantas páginas de una URL contienen una palabra determinada, la búsqueda puedes hacerla así:

site:www.paginaweb.com tecnología

o indicando primero la palabra:

tecnología site:www.paginaweb.com

Esta búsqueda te mostrará cuantas páginas dentro de la URL paginaweb.com contienen la palabra tecnología.

Si la página web que deseas analizar utiliza subdominios para alguna zona de sus páginas, realiza la búsqueda sin las www. Por ejemplo:

site:paginaweb.com

Este mismo comando puedes utilizarlo en la mayor parte de buscadores, pero para ahorrarte trabajo, hay una herramienta que permite que lo hagas simultáneamente en varios buscadores y que además guarda un histórico de tu posicionamiento para que veas tu evolución a lo largo de los meses. Completamente gratuita: Marketleap

Marketleap es probablemente una de las mejores webs/herramientas para conocer tu posicionamiento.

En el enlace que indicamos, basta con que incluyas la url de tu página web (y hasta 3 webs más), introduzcas el código de seguridad, y en un momento sabrás cuantas páginas tienes indexadas en 6 buscadores, entre los que se incluye Google, Yahoo y MSN. Cuando te muestre los resultados, en la parte derecha superior te ofrecerá ver el histórico de tus consultas y poder conocer así tu evolución.

Si compruebas que tienes menos páginas indexadas de las que realmente tienes colgadas en la red, quiere decir que las arañas de los buscadores no entran en todas tus páginas. Contacta con nosotrossi deseas que te echemos una mano en este tema. Si deseas saber más sobre la indexación informáte acerca de nuestros cursos presenciales y acerca de las conferencias que realizamos a este respecto. Encontrarás más información aquí: Formación y eventos.

» Siguiente unidad¿Qué tengo que hacer si no quiero que una araña entre en mi página?

Presentación del Curso de Posicionamiento en Buscadores

20 Enero, 2008

Descubre cómo puedes asegurarte de que tu negocio está bien posicionado en los principales buscadores (… y qué debes hacer si no lo está)

La red está cambiando nuestros hábitos de trabajo y cada vez tiene una presencia más ubicua en nuestras vidas.

La principal herramienta de marketing de esta nueva era son los buscadores: cuando alguien necesita información, acude a Internet y utiliza un buscador.

Pero, ¿cómo funciona un buscador? ¿Qué tenemos que hacer para asegurarnos de que nos encuentran? ¿Cómo podemos conseguir ocupar las primeras posiciones en determinadas búsquedas?

Los objetivos de este curso son:

  • Conocer cómo funciona un buscador: Aquí descubrirás cómo funciona exactamente un buscador y las principales diferencias con los buscadores de antes.
  • Conocer cómo puedes preparar tu página web para que se indexe naturalmente: En este apartado conocerás qué factores intervienen en el orden en que se muestran los resultados.
  • Conocer qué es el PageRank y el algoritmo de relevancia: Aquí entenderás por fin, cómo los buscadores determinan la importancia de una página y como puedes mejorar el posicionamiento de la tuya.

¿Cómo se indexa el https?

1 Noviembre, 2006

La indexación del https es uno de esos misterios que hace la vida de los SEO más interesante. Si bien sabemos que es posible indexarlo en la mayor parte de los buscadores, casi nadie sabe cómo conseguirlo en el mínimo tiempo posible.

¿Qué es el https?

El https es la versión segura del protocolo http. La diferencia entre uno y el otro es que el primero transmite los datos cifrados, y el segundo los transmite sin cifrar.

El sistema https utiliza un cifrado basado en las Secure Socket Layers (ssl) para enviar la información.

La decodificación de la información depende del servidor remoto y del navegador utilizado por el usuario.

Es utilizado principalmente por entidades bancarias, tiendas en línea, y cualquier tipo de servicio que requiera el envío de datos personales o contraseñas.

¿Cómo funciona el https?

Contrariamente a lo que piensa mucha gente, el https no impide el acceso a la información, sólo la encripta cuando la transmite. De ahí que el contenido de una página web que utiliza el protocolo https pueda ser leído por las arañas de los buscadores. Lo que no puede ser leído es el contenido que se envía desde esa página web a su servidor, por ejemplo, el login y la contraseña de acceso a una zona privada de la página web.

El puerto estándar para este protocolo es el 443.

¿Cómo sabemos que realmente se indexa el https?

Google indexa https desde inicios del 2002 y progresivamente, el resto de buscadores han ido adaptando su tecnología para indexar también el https.

El último buscador en hacerlo ha sido MSN, que lo consiguió en junio 2006.

Si buscamos “https://www.” o bien inurl:https en los principales buscadores, encontraremos páginas https indexadas en ellos.

¿Cómo podemos indexar nuestro https?

En principio, de forma natural podemos indexar nuestras páginas en https, pero como este protocolo transmite la información de forma mucho más lenta, algunas veces las arañas no consiguen descargar las páginas en el tiempo que tienen establecido y se van sin indexarlo. Este es el principal problema con el que nos podemos encontrar. Lo resolveremos intentando disminuir el tiempo de descarga de estas páginas.

Cómo podemos acelerar la indexación del https

Existen dos técnicas:

  1. Google Sitemap: Incluir en nuestro sitemap las páginas https (nos referimos al google sitemap, no al sitemap para humanos), y darlo de alta en sitemaps de google.
  2. Guerrilla: repartir por todo Internet enlaces que vayan a nuestras páginas https, y conseguir de esta forma que las arañas que están indexando las páginas donde tengamos los enlaces, entren también en la parte https de nuestra web.

Cómo podemos hacer que no se indexe nuestro https

No es tan fácil cómo parece. No nos sirve incluir las páginas https en nuestro robots.txt. Cada puerto necesita su propio robots.txt, así que deberemos crear un robot.txt para nuestras páginas http y otro para nuestras páginas https. O sea, deberemos tener también una página llamada

https://www.nombredelapagina.com/robots.txt

Si necesitas ayuda para indexar o desindexar tus páginas https, no dudes en contactarnos. Estaremos encatados de asistirte.

Información complementaria:

Blog de MSN acerca de indexación – Artículo donde explican que MSN empieza a indexar https
http://blogs.msdn.com/livesearch/archive/2006/06/28/649980.aspx

Información de Google acerca de cómo no indexar https:
http://www.google.es/support/webmasters/bin/answer.py?answer=35302

Más información sobre sitemaps de google:
SiteMaps de Google
http://www.geamarketing.com/articulos/Descubre_indexacion_futuro_Google_SiteMap.php

Curso online, gratuito, de posicionamiento en buscadores: Curso de posicionamiento en buscadores
http://www.geamarketing.com/posicionamiento_buscadores.php

Efectos del Google Dance de Septiembre/Octubre 2004

27 Octubre, 2004

Este septiembre, todos esperábamos los nuevos PageRank y la limpieza de la base de datos con la consecuente desindexación de todas las páginas a las que sus arañas no han podido acceder desde la última gran limpieza, llevada a cabo en marzo… pero no ha sido así

El baile de septiembre se quedó corto

En septiembre 2004 Google se ha limitado a publicar resultados como un mes más; sin modificar el PR (al menos externamente, ya que no podemos estar seguros de que el PageRank que aparece en la barra de Google sea realmente el que Google utiliza para calcular el algoritmo de ordenación de resultados) y Google sólo ha mostrado algunas variaciones en los resultados… Pero llegó Octubre, y con él, el nuevo PageRank.

¿Desde cuando Google no recalculaba el PageRank?

Desde medioados de junio los PageRank de las páginas web no se habían recalculado masivamente.

Concretamente, según rumores, no se habían recalculado desde que el algoritmo del Check Sum (el número utilizado por la barra de Google para conocer qué PageRank mostrar en cada web) empezó a correr por Internet.

Cambios en el cálculo del PageRank

Comentábamos en un artículo de marzo, que tras el Florida Update, Google había incluido en el algoritmo del PageRank un filtro para discriminar las webs de grandes corporaciones o de un mismo propietario, que realizaban intercambios de enlaces con el único fin de hacer subir su PageRank. Este filtro parece seguir activo.

Este filtro es un complejo algoritmo por si mismo, y lo explicábamos en el artículo: HillTop

Pero veamos que ha estado haciendo Google estos últimos 3 meses:

25 agosto: grandes movidas en el orden de los resultados

Movidas primero atribuidas a un Google Dance, pero luego, pasadas unas semanas, las webs afectadas vieron como se recuperaban las posiciones anteriores, así que todo apunta a que fueron pruebas realizadas en el algoritmo.

23 de septiembre: nuevas movidas

Empiezan a publicarse nuevos resultados a partir de todo el material que las arañas de Google han recogido hasta el 30 de agosto (excepto las homes de las webs, que Google las actualiza cada dos ó tres días).

Empiezan a tomarse seriamente las dudas acerca de si el PageRank que muestra la barra es el PageRank que utiliza Google para sus cálculos… y se sospecha que no ha actualizado los datos que muestran las barras, pero sí los que utiliza para sus cálculos.

7 de octubre: empieza la asignación de nuevos PageRank

A partir del 7 de octubre, algunas páginas con PageRank cero, han empezado a mostrar PageRank en las barras de Google. Esto lo hemos podido constatar con la aparición del PageRank en la barra de Google en las páginas que han sido creadas durante julio, agosto y septiembre, y que hasta ahora nos mostraban un cero.

También en el site PageRank Watch, podemos ver algunas web que a partir de ese día, tienen el PageRank asignado o modificado.
Algunas novedades en las búsquedas de Google

Búsquedas en las páginas de libros escaneados

Sabíamos que tras la colaboración con Amazon (A9, el buscador de Amazon, corre sobre el motor de Google), Google era capaz de buscar dentro de los libros que Amazon tiene a la venta. Ahora, desde Google mismo, si deseas encontrar resultados que aparezcan dentro de un libro, puedes realizar la siguiente consulta:

book (+el nombre que sea por ejemplo: book shakespeare)
(no funciona en castellano)

Esto mostrará entre las primeras líneas un resultado con un icono que indica que es un resultado que ofrece las palabras que buscas y que aparecen dentro de un libro (es el icono que mostramos en la imagen que ilustra este artículo). En realidad, la búsqueda se hace sobre http://print.google.com la base de datos de libros escaneados que utiliza Google.

Los libros pertenecen a varias librerías online, no sólo a Amazon.

Con toda probabilidad, a lo largo de octubre iremos descubriendo más cosas acerca del Google Dance de septiembre/octubre 2004, veremos qué otras sorpresas nos depara…
Páginas de interés para quien desee ampliar información:

Base de datos de libros escaneados por Google (el contenido íntegro no se expone a los usuarios, de esta manera Google garantiza que no se pone en peligro la Propiedad Intelectual del autor): Print Google

Artículo en el que explicamos el Google Dance de marzo 2004 y sus novedades Google Dance Marzo 2004

Artículo en el que explicamos cómo buscar rangos numéricos en Google Rangos