Sé cuidadoso con el “Big Data”

66 meneos

815 clics

Este envío tiene varios votos negativos. Asegúrate antes de menear

Sé cuidadoso con el “Big Data”

En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.

61 5 11 K 46 mnm

34 comentarios

61 5 11 K 46 mnm

Comentarios destacados:

#1 noexisto

Leer un poco hasta que encontréis la palabra pseudoaleatorio (no digo más para no hacer spoiler)

5 -33
#2 gallir

#1 ¿? Todos los algoritmos de generación de números aleatorios... son en realidad pseudoaleatorios. Es básico, ¿qué tiene de raro?

14 151
#3 noexisto

#2 no es ninguna critica. Solo que no quiero contar las conclusiones desde ahí en base a esa aleatoriedad #ains

1 9
#4 --374021-- *

#3 Ten en cuenta que es habitual generar entropía en base a eventos tales como los movimientos de ratón, y el usuario de #2 creo que fuma, con lo cual el continuo apartar las cenizas del teclado, movimientos violentos cuando entra el humo en los ojos o se cae la brasa en los pantalones y demás hace que en la práctica esos números sean totalmente aleatorios.

5 88
#5 gallir

#3 Se nota que no tienes idea de generación y uso de números [pseudo]aleatorios, o test de su validez (puse lo datos). Ninguna, pero has tenido que soltar una chorrada enorme porque has leído lo de "pseudo"

#4 Eso se hace sobre todo para cifrado, para que no se pueda usar el conocido algoritmo y probar sólo con diferentes semillas y secuencias del algoritmo, por eso la "entropía". No hace falta para generar números aleatorios con una determinada distribución para análisis como el que hago. Además, en muchos experimentos/análisis es conveniente generar la misma secuencia, por eso todos los APIs permiten especificar la semilla inicial (no sólo sirve para generar diferentes, también para obtener secuencias idénticas)

Me parece que hay algunos que necesitan estudiar más sobre estadística y las propiedades de números pseudoaleatorios.

15 141
#6 --374021-- *

#5 Si yo te lo he dicho solo para que dejes de fumar, que es malo, pero gracias por la información.

4 59
#7 javis2

#1 ¿pseudoaleatorio = pseudociencia?

0 6
#8 noexisto *

#5 a ver nene, por mucho que sea de letras entiendo perfectamente lo que has dicho. El artículo está tan bien escrito que cualquiera que no tenga ni puta idea entiende
- Se habla mucho del Big Data
- Los análisis se hacen hace décadas, especialmente en grandes empresas
- Sí, todos estos típicos análisis se hacen mejor especialmente en los últimos ańos con los ordenadores, permite manejar datos y variables
- sí, gran culpable de lo que ha pasado, sobre todo cuando se creaban fórmulas "mágicas"
- El Big data se ha popularizado: se hace y se hace mucho porque es mucho más barato y accesible
- Como en todo en lo que hay mucha cantidad de algo, se produce mucho "ruido".
- Te pillas 2 datos de los últimos 20-40 ańos y los pones en una gráfica. Tienen correlación estás variables? Es Ponemos no 2, sino 1.000, el famoso Big data
- Ahora es más "fácil" ver los datos que tienen correlación positiva (cuando sube/baja el dato A, sube/baja el dato M)
- Es casualidad? No. Claramente van a la par en sus movimientos.
- Incluso podemos encontrar datos que funcionan "al revés". Cuando uno baja, el otro sube.
- La leche en verso porque no hace falta tener unos algoritmos de banca para detectarlo, una simple hoja de cálculo (sabiéndolo hacer) te detecta estas correlaciones: cuando sube uno sube otro, baja uno bajá otro, cuando uno sube otro baja y cuando aquel baja el otro sube
- Ahora, tu parte: los numeros pseudoaleatorios. Hasta aquí bien, lo he entendido, verdad?
- Pues todos estos datos (a los que les hemos buscado correlaciones) están creados por un programa que genera número pseudaleatorios (la paradoja de creación determinista para crear verdadera aleatoriedad) Bien porque son más seguros que los aleatorios (que no lo son realmente nunca) bien porque nos hemos equivocado al programarlo para generarlos (típicos problemas de criptografia)
- Vuelves a reiterar lo anterior: cuando hay muchos datos es difícil separar ruido de la seńal, cada día hay más análisis de estos que nos pueden llevar a medidas politicas/economicas desastrosas mediante su uso erróneo si el análisis no es el correcto: alerta a estos datos y sobre todo a su análisis: por muy bonita que sea la gráfica, cuanto más datos contenga, más fácil es hallar correlaciones sin relación alguna.

Ahora: sin tener ni puta idea de estadística (que no la tengo) y siendo "de letras" crees que he comprendido el fondo del asunto o no? O sigues pensando que solté una chorrada. Esa es la base (por eso puse que no hacía spoilers)
Incluso (para el que lo lea) aunque los números se los inventara un mono alguien les encontrará una correlación y ese es el peligro de todo este tipo de análisis y gráficas.
Intenté subir la noticia al verla en "el Nótame" y leerla, por cierto. Me sigue pareciendo interesante y tu comentario fuera de lugar, a pesar de lo dicho en #3. En ningún momento troleaba #ains #re-ains

5 17
#9 --370435-- *

pero realmente los usuarios de meneame entienden de que va esto??? y además superirrelevante, es decir lo que diga el tipo este va a misa???? aunq sean divagaciones suyas???

1 -1
#10 --51656-- *

#2 Quiza deberías ver esto:

"RANDOM.ORG offers true random numbers to anyone on the Internet. The randomness comes from atmospheric noise, which for many purposes is better than the pseudo-random number algorithms typically used in computer programs."

www.random.org/

Y esto:
"There is, however, a procedure that guarantees the presence of truly random quantum measurements, generated only at – and completely unique to – a particular place and time, which might be termed “private randomness.” It was invented by physicist John Bell in 1964 to test a central hypothesis of quantum mechanics: namely, that two objects such as photons or matter particles can enter an exotic condition called “entanglement” in which their states become so utterly interdependent that if a measurement is performed to determine a property of one (which will, of course, be a random value), the corresponding property of the other is instantly determined as well, even if the two objects are separated by distances so large that no information could possibly pass between them after the measurement is made on the first object."

jqi.umd.edu/news/random-numbers-not-chance

4 44
#11 --377453--

#3 Seguramente no tienes ni idea de la altisima calidad de numeros aleatorios que genera un algoritmo por ejemplo como MT Twister. ¿Verdad?

1 20
#12 unomas23

Resumiendo: causalidad != casualidad

1 16
#13 --285936--

Se mezclan conceptos que no se tienen por qué mezclar. Big data es la forma de gestionar (que no analizar) grandes volúmenes de datos. Data mining es una disciplina encargada de bucear por los datos para sacar información relevante, pero no hace falta que sean muchos datos. Conceptualmente errónea. El autor sabe algo de estadística, pero poco de big data.

Wikipedia: Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications

Data mining: The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use

3 43
#14 maxella

¿Soy yo o todo el artículo es para decir que correlación no implica causalidad?

3 37
#15 rebrok

#10

Son números "true" random numbers: en.wikipedia.org/wiki/Random_number_generation#.22True.22_random_numbe

basados en fenómenos físicos, en este caso ruido atmosférico, que se supone que debería ser aleatorio.

0 9
#16 gallir

#8 No entiendes nada de números aleatorios, de hecho ni por qué se llaman pseudoaleatorios, pero has soltado la burrada por hacerte el listillo. Y luego te enrollas con cosas que nada tienen que ver con el fondo del asunto (como el "determinismo", cuando lo que importan son sus propiedades estadísticas).

#10 Mira lo que dije en #5 sobre el tema. Es absolutamente ridículo poner en duda a los números pseudoaleatorios para un ejemplo que muestra que pueden aparecer correlaciones irrelevantes y que hay que ir con cuidado y no tomarlas prima facie. Parece que ni eso se entendió, o no se quiere entender.

4 65
#17 procesd

Se puede explicar como la paradoja del cumpleaños. es.wikipedia.org/wiki/Paradoja_del_cumpleaños

La idea básica mientras las series de datos aumentan linealmente, el número de posibles relaciones entre series de datos es una función factorial. Me voy a tirar a la piscina a ver si me acuerdo de como iba el tema de las probabilidades

Si tenemos 2 series de datos pseudoaleatorias, sabemos por el algoritmo que las probabilidades de que esten relacionadas con un coef de correlación de Pearson mayor de 0.65 es 1 entre mil millones (1e-9). Por lo que sabemos en un 99.9999999 % que NO estan relacionadas

Pero si tenemos P series, tenemos P-1! relaciones y la probabilidad de que ninguna de eseas relaciones no tenga una correlación fuerte es de 0.999999^P-1!

Con P bajas, por ejemplo 10 series de datos (1-1E-9)^9! la probabilidad de NO relacion es 0.999637.
Pero con P=100 el resultado es 0, es decir SEGURO que hay como minimo 2 series relacionadas, con 1000 0 2000 series de datos, la cosa ya no es si encontramos relacion, sino cuantas. Si ademas loas series de datos no son realmente independientes, extraer resultados válidos va a ser una fiesta.

6 58
#18 gallir *

#17 Va por allí, aunque se usan tablas y métodos estandarizados, por ejemplo www.gifted.uconn.edu/siegle/research/correlation/alphaleve.htm
Más info: gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/#comment-

Pero el artículo es sólo una advertencia que si no se va con cuidado, se pueden sacar barbaridades (y las hay, muchos ejemplos, hasta de gente encarcelada injustamente por malas estadísticas... como el caso de las madres de niños con muerte súbita en el Reino Unido, más de 200). Además, en "Big Data" hay mucho ruido y poca señal, lo que complica aún más las cosas.

5 74
#19 --51656-- *

#16 No, yo no pongo en duda tu ejemplo, y de echo me parece muy bueno tu post, simplemente llamaba tu atención sobre el hecho de que si es posible generar números totalmente aleatorios al contrario de lo que afirmas en #2.
Incluso estuve buscando sin éxito otro articulo que hablaba de usar la desintegración de átomos radiactivos para dicha generación, también totalmente aleatorios por supuesto.

1 22
#20 gallir

#19 Sí, lo de los números aleatorios "perfectos" lo sé, por eso te apuntaba al comentario anterior. Pero un mecánico cuántico quizás lo ponga en duda

1 26
#21 eldios13

#17 bingo

0 9
#22 Kartoffel

Copio el comentario que puse ayer en el blog, por si a alguien le interesa:

-------------------
Los algoritmos estadísticos (usados correctamente) son bastante más robustos. Una práctica común es separar observaciones en datos de entrenamiento / validación; con los datos de entrenamiento puedes encontrar relaciones espurias del estilo de las de este post, pero la probabilidad de que estas relaciones pasen la validación es muy baja. Dependiendo del problema estadístico, también se pueden corregir (estilo Bonferroni) los umbrales para comparaciones múltiples para minimizar el problema (no eliminar, porque cualquier test estadístico siempre tiene una probabilidad no nula de fallar simplemente por azar).

Una cosa en la que sí estoy de acuerdo con el post es que los modelos estadísticos, por sí solos, sólo describen los datos: hay que tener cuidado al formularlos e interpretarlos para extraer conclusiones válidas (p. ej. a la hora de interpretar los coeficientes de una regresión múltiple en presencia de multicolinealidad, endogeneidad, variables ocultas, etc). Sólo la combinación de teoría con datos produce conocimiento fiable.

Luego el análisis de series temporales ya es un mundo aparte.
-------------------
gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/#comment-

1 21
#23 --377501--

#14 Me temo que sí, pero por algún extraño motivo ha degenerado a una absurda discusión sobre la aleatoriedad de los numeros pseudoaleatorios.

3 25
#24 --377501--

#22 No acabo de pillar lo que dices, aunque hagas hold out o crossvalidation, la distribución en todos los datasets será contendrá la misma correlación, no cambiará nada (digo yo en mi ignorancia).

0 6
#25 --328202--

#24 La gracia de la validación cruzada es que al tomar muestras más pequeñas (un subconjunto de la muestra total llamado de entrenamiento) encontrarás mas correlaciones que con la totalidad de la muestra y luego al analizar estas correlaciones en el resto de los datos (llamados de validación) se detecta que la mayoría de las correlaciones ya no aparecen, y eso te da una idea de hasta que punto esas correlaciones son espúreas o se mantienen en el tiempo.

2 24
#26 Kartoffel

#24, lógicamente necesitas definir tu modelo con un poco más de sustancia. Ejemplo simple: si modelas la relación lineal Xi = b0 + b1·Xj + e (Xi~Xj en notación R) y ajustas el modelo en los datos de entrenamiento, puedes hacer la predicción de este modelo para tus datos de validación y estudiar los resultados.

2 27
#27 --105855--

#13 Creo que queda claro lo que quiere decir, aunque confunda un concepto.

0 7
#28 --330451-- *

» ver comentario
#29 --151124--

#1 Los números aleatorios no existen, y si existen, no sabemos obtenerlos.

0 7
#30 noexisto *

#16 ya te lo he dicho antes en #8, pero parece que te empecinas en lo mismo gallir, en fin.
El artículo está bien escrito para un tercero que no tenga ni idea del asunto. Por éso por dos veces puse:
Leer hasta la parta de la pseudoaletoriedad: porque ahí esta el meollo de la explicación (si no se entiende se busca algo en Wikipedia) Y es lo que hice (por éso, como te escribo al final de #8) no pude enviarla:
Porque me la leí e intenté buscar lo que no comprendía con exactitud. Y esa parte la busqué para saber de qué va el asunto exactamente y cómo se hace. Por eso en #2 te digo, "no es una crítica" ("para nada, lo que ánimo es a leerlo"!)
Pero tu, tienes que tener razón, al parecer. Siempre.
Determinismo: sí. Por mucho que intentemos crear programas que muestren aleatoriedad, al final no podemos conseguirla 100% o me equivoco?
Por cierto gracias por tu tuit, lo pondré inmediatamente en la bio (a ver si puedo usar el móvil). Me ha hecho mucha ilusión lo de comentario ignorante de la semana

1 7
#31 el_Tupac

Las estadísticas nunca mienten maggiesfarm.anotherdotcom.com/uploads/piratesarecool.jpg

0 14
#32 sotanez

#9 No son divagaciones, está más que estudiado. No es que haya descubierto la sopa de ajo, ni creo que tampoco lo pretenda, pero hay mucho "hestadístico" por ahí sacando correlaciones y creyéndose que ha encontrado algo.
En el ejemplo que expone, seguro que aplicando validación cruzada ya sacas que esa correlación es pura casualidad.

0 10
#33 --370435--

#32 esto es meneame, se envian noticias no divagaciones...

0 8
#34 --138768-- *

Yo lo hubiera titulad "Introducción a Big Data para crios de 3 años".

Esto lo escribe cualquiera que no sea gallir y no le hacéis ni puto caso. Hay 800 posts como ese o mejor. No aporta nada.

0 6

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

más visitadas

La pulsera del policía que ayer multó en Sevilla al catedrático emérito de Antropología Isidoro Moreno, por el simple hecho de estar en una manifestación contra el genocidio en Palestina

Robot de asistencia de microcirugía cosiendo un grano de maíz

La policía pide colaboración ciudadana para localizar al conductor que ha huido después de atropellar un niño en València

Manifestantes israelíes increpan al ministro de seguridad, Ben Gvir, que responde apuntándoles con un arma

Mil euros para pasar cuatro horas con Llados, pseudogurú de la libertad financiera: "¡Me has cambiado la vida, 'bro'!"

más votadas

Le Pen si gana cerrará la frontera para los productos españoles. Vox la invita a un acto en Madrid y el público la aplaude

Milei dice que los impuestos son un robo, pero viene a España con un avión pagado por los impuestos de los argentinos, apoya a Abascal que lleva toda la vida viviendo de chiringuitos...

La pulsera del policía que ayer multó en Sevilla al catedrático emérito de Antropología Isidoro Moreno, por el simple hecho de estar en una manifestación contra el genocidio en Palestina

“Madrid sigue en pie por la sanidad pública”: la Marea Blanca vuelve a la calle contra Ayuso

Albares llama a consultas a la embajadora española en Buenos Aires sine die tras las "gravísimas palabras" a Sánchez y le exige disculpas públicas

suscripciones por RSS

Sé cuidadoso con el “Big Data”