Hace una semana comentaba mi intension de investigar lo expuesto en seo femenino sobre la frecuencia de rastreo de google al archivo robots.txt.

Como obtuve la informacion:
Primero seleccione uno de mis sitios con buena actividad, el cual tiene un pagerank 2, 5.750 páginas indexadas en google, 11.870 en Yahoo y 1.060 en Bing.
Luego hice que apache interpretara el archivo robots.txt como un archivo php, es decir, que lo ejecutara con php sin importar que la extension fuera .txt. Dentro de este archivo php filtre los distintos robots (Yahoo, Bing y Google) y coloque una función para que cada vez que uno de esos robots solicitara el archivo me enviara un mail informandome el User Agent del robot, el archivo solicitado (robots.txt) y la fecha y hora en que solicito el archivo.

Con esta información genere un informe diario de la actividad de los distintos bots en el archivo robots.tx

Los resultados:
En 9 días de investigación, los resultados indican:
1) Que googlebot efectivamente accede practicamente todos los dias al archivo robots.txt, a excepción de algunos dias.(Gráfico 1)
2) Que Yahoo lo hace religiosamente cada día y hasta 10 veces el mismo día. (Gráfico 1)
3) Que Bing núnca paso a ver como estabamos…

Como dato quizas no tan importante, pero que me llamo la atención, podría agregar que GoogleBot ingresa por las mañanas, entre las 7 y las 10 am. Mientras que Yahoo lo hace a lo largo de todo el día, donde el menor horario registrado es 4 am y el mayor es 23 hs. (Gráfico 2)

Para darle un poco más de estética al post, les dejo unos gráficos para que puedan ver con claridad lo que les digo (click para ver en grande):

Rastreo del archivo robots.txt semanal:

Analisis de ingresos al archivo robots.txt
Analisis de ingresos al archivo robots.txt

Analisis del día con mayor actividad por ambos motores de busqueda (09/09):

Analisis de ingreso al archivo robots.txt por horas
Analisis de ingreso al archivo robots.txt por horas

Si con este post te estamos ayudando, no dudes en linkearnos o seguir nuestro RSS

7 thoughts on “Analisis: Frecuencia de rastreo de robots.txt

  1. bah! si tienes un blog te indexan rápido y más si es de google, todo depende del hosting, ahora todo el mundo se está cogiendo blogs sobretodo para negocios, será por algo.

    1. Juan, gracias por tu comentario! Realmente no comparto lo que comentas sobre que te indexan rápido dependiendo del hosting, no me consta que asi sea. Sobre que los blogs son un nuevo mercado para negocios, eso no lo dudo.
      Me gustaria saber si tienes alguna fuente que abale lo que comentas sobre la relación que expones entre tematica/hosting con indexación. Saludos

  2. Mi análisis lo hago basándome en foros de expertos SEO donde comparten conmigo que el alojamiento lo es casi todo, el resto sólo son detalles y esos detalles son el SEO.
    Según mi humilde experiencia aquí pongo de mayor a menor los alojamientos en velocidad de indexación.

    1- Foros y Blogger – Velocidad de indexación de segundos a pocos días dependiendo de las actualizaciones. He llegado a ver indexaciones en 5 segundos después de publicado!!!

    2- Otros Blogs – de 1 a 3 días

    3- Hosting de pago – Normalmente una semana dependiendo de las actualizaciones. Los que llevan años con buen PR puede tardar en indexar de 1 a 3 días.

    4- Hosting gratuito – de 1 a 3 meses. Si es muy popular puede llegar a 3 semanas pero no he encontrado ningún caso que sea de menos por mucho que se actualice y mucho PR tenga.

    Ojalá fuera como tu dices, pero en internet parece que hay una especie de discriminación o racismo con las webs dependiendo del alojamiento en el que estés.
    Si quieres resultados rápidos no lo dudes: Blogger

  3. Hola, me explicarías como configuraste el apache para que interprete txt como php?

    Excelente tu explicación!

    Saludos !!

Comments are closed.