Temas etiquetados como: ‘robots’

Unidad 6: ¿Qué pasa si no tengo creada la página robots.txt?

27 Enero, 2008

En la unidad didáctica anterior hemos comentado que todas las arañas de buscardores y la mayor parte de agentes robot que navegan por la red, cumplen el Protocolo de Exclusión de Robots, y por lo tanto, antes de entrar en una página web, consultan el fichero robots.txt de esa página web para asegurarse de que realmente desea ser indexada o para conocer qué partes de su web no deben ser escaneadas.

Así que constantemente las arañas estarán accediendo a la página robots.txt de nuestra web. Si no tenemos ninguna página con ese nombre, las arañas creen que queremos ser indexados, y empiezan la visita a nuestra home y a todas las páginas que desde ella sean accesibles. Hasta ahí, no hay problema, porqué normalmente todos queremos que las arañas de los buscadores nos escaneen la web…

…Pero aunque el hecho de que las arañas intenten acceder a una página que no existe no las afecte, esto sí afecta a nuestro servidor de internet y a nuestras estadísticas. El intento de acceso a una página que no existe, genera un error 404 page not found que queda registrado en nuestos logs.

Cuando analicemos las estadísticas de nuestro site, nos aparecerán muchos errores 404 y creeremos que nuestros usuarios están intentando llamar a páginas inexistentes o bien que tenemos algún problema de links rotos que no llevan a ninguna parte… cuando en realidad, serán las arañas y el resto de agentes robot los que estarán creando los errores 404.

Por eso se recomienda crear una página en blanco y guardarla en nuestro servidor con el nombre de Robots.txt. De esta forma, las arañas encontrarán la página, la leeran y verán que no hay nada que les impida idexar toda la página web. Y en nuestras estadísticas no tendremos errores 404 generados por no humanos, por lo que todos los errores 404 que aparezcan serán reales y podremos corregirlos fácilmente.

Si deseas ver nuestra página robots.txt, aquí la tienes: robots.txt.

» Siguiente unidad: Ya estamos indexados… ¿y ahora qué?. Ahora, debemos luchar para estar en las primeras posiciones de los resultados de búsqueda. Descubre cómo un buscador ordena los resultados: Los algoritmos de ordenación.

Unidad 5: ¿Qué tengo que hacer si no quiero que una araña entre en mi página?

26 Enero, 2008

Te debes estar preguntando ¿por qué algunas webs no desean estar indexadas? La respuesta es sencilla: todas aquellas páginas web cuyo modelo de negocio pasa por la venta de contenido (diarios online, archivos, venta de informes o de estudios, etc…) no desean que se pueda acceder de forma gratuita a su contenido, así que no permiten que las arañas indexen las zonas de su web donde está publicado el contenido de pago. También hay gente que no desea que las arañas entren en sus páginas, para no sobrecargar sus servidores, o no quieren que ciertas partes sean publicadas en los buscadores aunque sí desean que sean accesibles por sus visitantes. En todo caso, en este capítulo te explicamos cómo hacer que las arañas no entren o que entren sólo en las zonas que tu deseas, sin tener que indicarlo en cada una de las páginas de tu web.

El Protocolo de Exclusión de Robots

Los webmaster tienen la posibilidad de no permitir el acceso a determinados Robots o no permitir la inspección de determinadas rutas de su página web. El método empleado para evitar la inspección de sus páginas por parte de los Robots, se estructura en dos ámbitos: por un lado, se facilita al Administrador del Web un mecanismo de exclusión de Robots y por otro, se proporciona al propietario de cada página HTML un mecanismo adicional de control del acceso a la misma por parte de los Robots. El primer mecanismo se denomina “Protocolo de Exclusión de Robots“, y permite al Administrador decidir qué partes del Web no deben ser indexadas. El medio para conseguirlo: un archivo de texto denominado ROBOTS.TXT que contiene las instrucciones sobre las páginas visitables y las que no permiten el acceso a los Robots. El segundo mecanismo, que proporciona un nivel adicional de protección para el propietario de cada página, se logra mediante la inserción de unas etiquetas HTML denominadas META Tags (es decir: Etiquetas META) en las que se indica al Robot si debe o no inspeccionar o indexar cada página HTML individual. Si deseas más información acerca del META ROBOTS, la encontrarás aquí: Meta Robots

El fichero ROBOTS.TXT

El “Protocolo de Exclusión de Robots” se basa en la especificación del contenido de un ficheroROBOTS.TXT en el que se presentan las instrucciones de comportamiento oportunas para los Robots en relación con las páginas inspeccionables. La razón de elegir un fichero como método de exclusión de páginas es que con sólo “bajarse” este fichero, el Robot conoce las páginas indexables de una página web y no tiene que visitarlas una por una para estar seguro de si puede indexarlas o no. Cuando un robot o araña entra por primera vez en una página web, lo primero que visita es la url: www.nombredelapágina.com/robots.txt Si allí no encuentra ninguna instrucción que le impida navegar por la web, entonces empezará el escaneo. Si el administrador de la web ha incluido en esa página alguna instrucción que le afecta, se irá de la página y no escaneará su contenido. Nosotros recomendamos crear siempre la página robots.txt, aunque desees que los robots entren siempre en tus páginas. Si no la creas, cada vez que un robot la busque generará un error 404 en tu servidor (404: Page not found) y en tus estadísticas te apareceran cientos de estos errores al día. Si creas la página y la dejas en blanco evitarás estos errores. Si deseas más información acerca del Protocolo de Exclusión de Robots, la encontrarás aquí: Protocolo de Exclusión de Robots.

Algunos ejemplos de páginas robots.txt:

» Siguiente unidad: Nosotros recomendamos crear siempre la página robots.txt, aunque desees que los robots entren siempre en tus páginas. Descubre en el siguiente capítulo: ¿Qué pasa si no tengo creada la página robots.txt?

Araña

8 Septiembre, 2006

Es programa diseñado para recorrer la web siguiendo los enlaces entre páginas. Esta es la forma habitual empleada por los principales buscadores para encontrar las páginas que posteriormente forman parte de sus bases de datos.

araña

El origen de la palabra “araña” aplicada a los buscadores, es una traducción de la palabra inglesa “spider”.

En inglés “web” significa “tela de araña”, por lo tanto, a programas que corren por la web en busca de nuevas páginas, los anglosajones les llaman “spiders”, y nosotros, por traducción directa: “arañas”.

A las arañas también se les llama robots o agentes robot.