Cultura y divulgación
201 meneos
5027 clics
El gripazo de Google muestra las flaquezas del big data

El gripazo de Google muestra las flaquezas del big data

Una herramienta de Google pasó de predecir con exactitud los casos de gripe en cada región de EEUU gracias a las consultas del buscador a fallar en todos sus pronósticos. Un artículo en ‘Science’ señala este caso como una parábola de la arrogancia asociada al campo del ‘big data. “Por tener terabytes de datos no tienes mejor información”, señala Esteban Moro

| etiquetas: big data , flaqueza , google , ciencia , science
94 107 5 K 541
94 107 5 K 541
  1. Sencillo:
    - Población totalmente vacunada. Google dice que no hay casos de la gripe.
    - Como no hay casos, aparecen los primeros que dicen que no es necesario vacunarse porque la enfermedad ya está erradicada.
    - No pasa nada (porque el resto de la población sí lo está, y por tanto el contagio no es posible) y muchos más deciden no vacunarse.
    - En poco tiempo, todo el mundo es susceptible de enfermar.

    No es un problema con el bigdata, es un problema de pensar que que datos estadísticos pasados son fiables en el futuro aun habiendo un cambio sustancial en el comportamiento.
  2. #1 Creo que Flu Trends no es tan interesante para predecir la gripe en el futuro. Ya es muy valioso para tener datos del presente y del pasado en todo el mundo. No es posible pedir a un modelo estadístico que prediga lo que va a pasar ante circunstancias desconocidas.
  3. ¿Big data? Será de las técnicas de inferencia y el tratamiento de datos
  4. En general, Big Data es el palabro de moda entre vendedores de humo con corbata que no saben de lo que hablan. Es el nuevo Cloud. Lo que nos suelen vender como Big Data no es mas que estadística mal entendida y, sobretodo, incompleta.

    Otra cosa es que a todo el mundo le gustaría ser Larry Page o Segei Brin, pero llegamos 20 años tarde a eso...
  5. Obviamente si con 3 datos eres capaz de hacer un pronóstico más o menos detallado, el resto de datos serán redundantes en el mejor de los casos, y hasta puede que te perjudiquen y se alejen de la realidad a cantidades muy grandes.
  6. ¡Yo ya hice de agorero y predije que lo de la informacion asi a lo bestia es todo una burbuja!
  7. #4 Amén... Jamás entenderé el modelo de "vendedor que vende de todo". Quizás soy un ingenuo al pensar que para vender algo tienes que saber cómo funciona y porqué...
  8. a mi me parece mas un articulo FUD sobre google, no aporta demasiados datos para justificar el fracaso

    es.wikipedia.org/wiki/Fear,_uncertainty_and_doubt
  9. Un articulo bastante malo. No pone ejemplos ni da explicaciones, ni hace análisis y se repite mas que el ajo.
    Parece propio de un periódico de papel dirigido al público general.
    Está en portada por que lleva las palabra Google y Big Data
  10. Cualquiera que haya algo hecho de predicción sabe que si añades muchas variables el modelo encajara perfectamente en tus viejos datos y que no va a predecir una mierda porque esta sobre estimado...

    No me ha gustado nada el articulo
  11. #1 Mas allá de los comentarios que hace #2, hay otro factor: el virus de la gripe muta muy facilmente, por lo que la vacuna de la gripe sólo sirve para virus "del año pasado", así que por mas que estés vacunado tienes una probabilidad de enfermarte, menor que la de un no vacunado es cierto pero no cero...

    #4 Es cierto Big data es una forma de vender de comercial, pero te puedo asegurar que hay bastante mas detrás del análisis de datos que lo que te da la estadística (y que te dan resultados que un análisis estadístico no puede alcanzar ni en sus sueños húmedos).

    #10 Eso en aprendizaje automático se llama overfitting :-)
  12. #11 Vaya hombre, y yo rompiendome la cabeza buscando una forma de decirlo en Español ya que lo estudie en UK y nunca lo he utilizado con españoles :-(
  13. Lo de la vacuna es un poco de aquella manera. Yo me estuve vacunando 2 años seguidos y curiosamente no pillé menos gripe esos años sino todo lo contrario. Es decir no considero la vacuna contra la gripe como efectiva, al menos no como la vacuna contra el tétanos o sus refuerzos (no confundir con la inyección), por poner un ejemplo.

    Salu2
  14. Tenéis más razón que santos: cómo va a ser mejor para hacer un estudio tener muchos datos que tener pocos, faltaría más.

    Otra cosa distinta es ser capaz de identificar los sesgos que estás introduciendo, y el análisis de #1 es impecable.
  15. #13 Pásate por las urgencias de cualquier hospital y se lo cuentas, que ellos no lo tienen tan claro.
  16. #12 overfitting es el término tecnico y con el que se puede buscar en google una explicación mas exhaustiva al que le interese, en castellano suelen utilizar sobreaprendizaje.
  17. #10 Claro, y para eso existen técnicas como la validación cruzada, que no creo que los de Google hayan obviado a la hora de hacer eso. Supongo que el problema será más complejo que un simple exceso de variables, vete a saber.
    Al final lo que pasa con el Big Data es como con todo, que para hacer algo decente hay que currárselo mucho, no es darle a un botón y ya está.
  18. #6 ya predijiste que no se puede predecir nada? xD
  19. Es que los terabytes son datos en bruto. La información la da el procesar de manera correcta los datos.

    Ahí está lo complicado, por eso la frase “Por tener terabytes de datos no tienes mejor información” no aporta nada nuevo, ni siquiera a Google, que es un experto en sacar aplicaciones que lo que hacen es analizar y aportar valor a la ingente cantidad de datos que dan.

    Lo positivo de estos fallos del BigData, si es que lo son, es que la NSA y otras agencias que pretenden analizar y proveer movimientos/revueltas sociales en la red, tampoco van a conseguir sacar gran provecho.
  20. #11 Según tengo entendido no es exactamente así. Lo que hacen con las vacunas es incluir las mutaciones que estiman más frecuentes. Si tienes la mala suerte de pillar un virus no incluido en la vacuna enfermas aunque estés vacunado
  21. #20 Tienes razón en parte: la vacuna la hacen con las cepas que esperan que sean mas comunes el invierno siguiente, pero también el virus de la gripe es altamente mutable: es.wikipedia.org/wiki/Vacuna_contra_la_gripe

    Así que ni pá ti ni pá mi :-D
  22. #14 Si los datos son mierda, las conclusiones también lo son. Ahora, ponte a evaluar la calidad de fuentes de datos heterogeneas y recolectadas de forma automática. Me da la risa.

    La cantidad no vale de nada sin la calidad. Y hoy día por culpa de determinadas corrientes filosóficas predominantes, se mete la pata constantemente fiándose de magnitudes puramente cuantitativas y despreciando las cualitativas, lo cual significa hacer caso a un montón de números sin cuestionarse nada más. Números que pueden ser mierda pura y deberse a factores impredecibles (especialmente con automatización de por medio). A partir de cierta escala, hay que trabajar con otros niveles de abstracción y cierta subjetividad, ya que interpretar determinadas cosas es inviable.

    Exactamente por la misma razón que un neurocientífico no puede usar directamente los conocimientos de su disciplina para hacer un tratamiento psicológico. Los árboles no dejan ver el bosque.
  23. #21 Uy lo que m'ha dicho. No tengo razón en parte, mi afirmación es correcta al 100%. No he dicho que el virus se la gripe no mute, sólo que en la vacuna de incluyen algunas cepas. Tiquismiquis que es uno :-P
  24. Ná que el profeta Gallir no hubiera predicho → gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/
  25. #23 ¿y como agregan a una vacuna la cepa de una mutación que aún no ha ocurrido? :-P

    Lo que decía es que el pillarte una gripe estando vacunado puede ser cierto tanto por el motivo que tu dices (que te tocó la china de un virus que existía un año anterior pero que no pusieron) o por el que digo yo: un virus con una mutación nueva que hace que no existan antígenos.
  26. Santo Gallir ruega por nosotros y no nos dejes caer en lo mystream.
    Haced una cruz con las teclas y podéis levantaros.
  27. #4 Primero el 2.0, después cloud y lo siguiente big data. Todas ellas palabrejas de marketing, no tecnológicas.
  28. ¿Big Data = minería de datos?
  29. #28 Ni :), big data= análisis mediante minería de datos de grandes bases de datos recopiladas de manera autmática.
  30. #14 por supuesto que cuantos mas datos mejor, pero es que si no son de calidad no sirve de nada, y sin analizar todo el proceso, desde la recogida a la presentación de los mismos es muy fácil acabar con una herramienta que no sirve de nada. Como ha dicho otro meneante recoger datos de forma automatica y hacer graficas al tuntun no sirve de nada. Mucho menos para hacer inferencia. El asunto de la calidad de los datos es un tema muy común en ccss, y es uno de los problemas por el cual el big data no termina de cuajar en algunos ámbitos.
  31. #31 Es probable, trabajo en desarrollo de algoritmos de data mining y aprendizaje automático para aplicar al análisis de datos biológicos. Así que de minería de datos algo se ;) . Pero lo que hago no es "big data" porque los datos aunque están obtenidos de manera automática y suelen ser muchos, son datos "curados" que han pasado por ojos humanos antes.
  32. #15 Pués mira al hospital nunca lo tuve que decir, pero a mi médico se lo dije. Y es que ya no es que la vacuna no valga en un año porque cambia la cepa, es que la cepa del virus de la gripe, puede cambiar varias veces en el mismo año.

    Salu2
  33. #4 Una cosa es lo que vendan los vendedores de humo y otra lo que haya detrás. El BigData va a dirigir la evolución de la informática los próximos años y, de hecho, todo lo que se va a desarrollar en cuanto a software, dispositivos, etc va a tener el objetivo principal de recopilar datos y relacionarlos entre ellos. GoogleFlu es muestra de la potencia de lo que se puede hacer pero también hay que saber hacerlo y, como dicen por ahí, no pueden esperar que un modelo para un lugar concreto en un momento concreto funcione siempre en todo lugar. No es así como va.
  34. #11 Es una limitación del modelo pero no overfitting. Si tu modelo está basado en la detección de palabras clave en consultas de búsqueda, no es posible que prediga los resultados futuros de un fenómeno social radicalmente nuevo.

    Se puede hacer un modelo predictivo más fiable si se tienen en cuenta otras variables como los datos oficiales de vacunación, pero son datos que difícilmente vas a conseguir a escala global y en tiempo real.

    Que Flu Trends tiene limitaciones para hacer predicciones está clarísimo, pero eso no le resta valor al proyecto. Como decía en mi comentario, el hecho de poder acceder a una estimación global (y desglose por regiones) de los casos de una enfermedad en el presente es acojonante.
  35. Como decía un profesor mio en la universidad: "error conocido no es error". Si sabemos que falla en todos sus pronósticos pues ya sabemos que la respuesta real será la contraria que nos diga. Además, fallar en todos los pronósticos tiene el mismo mérito que hacertarlos todos. Así pues el big data funciona.
  36. #1 Precisamente acabas de describir uno de los mayores desafios del Big Data, que es la interpretacion de informacion.
  37. #37 Yo te diría que más bien el problema es como conseguir que la publicación de los resultados no afecten los datos futuros.
comentarios cerrados

menéame