jueves, 22 de octubre de 2009

Analizator 1.0 by Parser

Según la ParserPedia

Analizator 1.0
Programa creado por Parser, especialmente diseñado para una medición estadística específica:
-Un recuento de apariciones, de ciertas palabras que toma como entradas, en las 1000 primeras webs que google lista según una búsqueda determinada.

La búsqueda: "Blog personal", Analizator pregunta al servidor Google.com y recibe un listado de webs(1200 para ser exactos), discrimina las 200 últimas y realiza un recuento de apariciones según un listado de palabras(un array unidimensional con los términos a estudiar)

La lista de palabras y los resultados:
crisis 1087
futbol|fútbol 572
moda 451
iglesia 429
obama 401
iran|irán 397
sexo 235
programacion|programación 231
zapatero 192
vivienda 145
cielo 137
sgae 97
hambre 95
algoritmo 36
rajoy 26
infierno 25
marginacion|marginación 4
Ahmadineyad 1

Este programa se basa en un sencillo pero potente algoritmo que da una idea bastante fiel de lo que se habla en los blogs, los blogs más importantes según PageRank de Google.

Podemos inferir:
La crisis o "crecimiento negativo" es el término que más aparece en estos momentos, seguido del término fútbol. Ánimo señores economistas, si las cosas siguen así, es posible que esta palabra actúe como una cortina de humo en la sociedad.
Sexo, la palabra que no cumplió sus espectativas, simplemente empezó con fuerza y fue cuestión de tiempo que incluso iglesia superara sin dificultad y por goleada.
Obama, este es tu año, incluso en blogs hispanohablantes no dudas en poner contra las cuerdas a Zapatero y Rajoy(incluso sumados)
Mucha gente se atreve a opinar sobre Irán pero casi nadie se atreve al titánico esfuerzo de documentarse sobre el nombre correcto de su dirigente: Ahmadineyad
En una loable actitud mental positiva confiamos plenamente en una segunda y eterna vida en el cielo antes que en el infierno.

Bueno, y...¿Qué tiene esto que ver con eficiencia computacional?

Sencillo, esto nos situa en un hipotético caso:
Imaginemos que alguna corporación quiere analizar en que "zonas" de internet se habla más o menos de ellos para posibles inversiones, esto requiere en muchos casos un estudio estadístico previo que señale con precisión la zona de incidencia. Mucho dinero en juego.

Sigamos, los anteriores datos con los que trabajé están llenos de impurezas.
Errores 404, meses sin actualizaciones, errores Forbidden...

En este caso sería razonable que un equipo de dos o tres personas en apenas dos días pudieran comprobar "in situ" que sitios son válidos. Pero... ¿y si quieren analizar 50.000?

Continuará

No hay comentarios:

Publicar un comentario