En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.
|
etiquetas: big data , cuidado , ruido , señal , correlación , pearson
#4 Eso se hace sobre todo para cifrado, para que no se pueda usar el conocido algoritmo y probar sólo con diferentes semillas y secuencias del algoritmo, por eso la "entropía". No hace falta para generar números aleatorios con una determinada distribución para análisis como el que hago. Además, en muchos experimentos/análisis es conveniente generar la misma secuencia, por eso todos los APIs permiten especificar la semilla inicial (no sólo sirve para generar diferentes, también para obtener secuencias idénticas)
Me parece que hay algunos que necesitan estudiar más sobre estadística y las propiedades de números pseudoaleatorios.
- Se habla mucho del Big Data
- Los análisis se hacen hace décadas, especialmente en grandes empresas
- Sí, todos estos típicos análisis se hacen mejor especialmente en los últimos ańos con los ordenadores, permite manejar datos y variables
- sí, gran culpable de lo que ha pasado, sobre todo cuando se creaban fórmulas "mágicas"
- El Big data se ha popularizado: se hace y se hace mucho porque es mucho más barato y accesible
- Como en todo en lo que hay mucha cantidad de algo, se produce mucho "ruido".
- Te pillas 2 datos de los últimos 20-40 ańos y los pones en una gráfica. Tienen correlación estás variables? Es Ponemos no 2, sino 1.000, el famoso Big data
- Ahora es más "fácil" ver los datos que tienen correlación positiva (cuando sube/baja el dato A, sube/baja el dato M)
- Es casualidad? No. Claramente van a la par en sus movimientos.
- Incluso podemos encontrar datos que funcionan "al revés". Cuando uno baja, el otro sube.
- La leche en verso porque no hace falta tener unos algoritmos de banca para detectarlo, una simple hoja de cálculo (sabiéndolo hacer) te detecta estas correlaciones: cuando sube uno sube otro, baja uno bajá otro, cuando uno sube otro baja y cuando aquel baja el otro sube
- Ahora, tu parte: los numeros pseudoaleatorios. Hasta aquí bien, lo he entendido, verdad?
- Pues todos estos datos (a los que les hemos buscado correlaciones) están creados por un programa que genera número pseudaleatorios (la paradoja de creación determinista para crear verdadera aleatoriedad) Bien porque son más seguros que los aleatorios (que no lo son realmente nunca) bien porque nos hemos equivocado al programarlo para generarlos (típicos problemas de criptografia)
- Vuelves a reiterar lo anterior: cuando hay muchos datos es difícil separar ruido de la seńal, cada día hay más análisis de estos que nos pueden llevar a medidas politicas/economicas desastrosas mediante su uso erróneo si el análisis no es el correcto: alerta a estos datos y sobre todo a su análisis: por muy bonita que sea la gráfica, cuanto más datos contenga, más fácil es hallar correlaciones sin relación alguna.
Ahora: sin tener ni puta idea de estadística (que no la tengo) y siendo "de letras" crees que he comprendido el fondo del asunto o no? O sigues pensando que solté una chorrada. Esa es la base (por eso puse que no hacía spoilers)
Incluso (para el que lo lea) aunque los números se los inventara un mono alguien les encontrará una correlación y ese es el peligro de todo este tipo de análisis y gráficas.
Intenté subir la noticia al verla en "el Nótame" y leerla, por cierto. Me sigue pareciendo interesante y tu comentario fuera de lugar, a pesar de lo dicho en #3. En ningún momento troleaba #ains #re-ains
"RANDOM.ORG offers true random numbers to anyone on the Internet. The randomness comes from atmospheric noise, which for many purposes is better than the pseudo-random number algorithms typically used in computer programs."
www.random.org/
Y esto:
"There is, however, a procedure that guarantees the presence of truly random quantum measurements, generated only at – and completely unique to – a particular place and time, which might be termed “private randomness.” It was invented by physicist John Bell in 1964 to test a central hypothesis of quantum mechanics: namely, that two objects such as photons or matter particles can enter an exotic condition called “entanglement” in which their states become so utterly interdependent that if a measurement is performed to determine a property of one (which will, of course, be a random value), the corresponding property of the other is instantly determined as well, even if the two objects are separated by distances so large that no information could possibly pass between them after the measurement is made on the first object."
jqi.umd.edu/news/random-numbers-not-chance
Wikipedia: Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications
Data mining: The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use
Son números "true" random numbers: en.wikipedia.org/wiki/Random_number_generation#.22True.22_random_numbe
basados en fenómenos físicos, en este caso ruido atmosférico, que se supone que debería ser aleatorio.
#10 Mira lo que dije en #5 sobre el tema. Es absolutamente ridículo poner en duda a los números pseudoaleatorios para un ejemplo que muestra que pueden aparecer correlaciones irrelevantes y que hay que ir con cuidado y no tomarlas prima facie. Parece que ni eso se entendió, o no se quiere entender.
La idea básica mientras las series de datos aumentan linealmente, el número de posibles relaciones entre series de datos es una función factorial. Me voy a tirar a la piscina a ver si me acuerdo de como iba el tema de las probabilidades
Si tenemos 2 series de datos pseudoaleatorias, sabemos por el algoritmo que las probabilidades de que esten relacionadas con un coef de correlación de Pearson mayor de 0.65 es 1 entre mil millones (1e-9). Por lo que sabemos en un 99.9999999 % que NO estan relacionadas
Pero si tenemos P series, tenemos P-1! relaciones y la probabilidad de que ninguna de eseas relaciones no tenga una correlación fuerte es de 0.999999^P-1!
Con P bajas, por ejemplo 10 series de datos (1-1E-9)^9! la probabilidad de NO relacion es 0.999637.
Pero con P=100 el resultado es 0, es decir SEGURO que hay como minimo 2 series relacionadas, con 1000 0 2000 series de datos, la cosa ya no es si encontramos relacion, sino cuantas. Si ademas loas series de datos no son realmente independientes, extraer resultados válidos va a ser una fiesta.
Más info: gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/#comment-
Pero el artículo es sólo una advertencia que si no se va con cuidado, se pueden sacar barbaridades (y las hay, muchos ejemplos, hasta de gente encarcelada injustamente por malas estadísticas... como el caso de las madres de niños con muerte súbita en el Reino Unido, más de 200). Además, en "Big Data" hay mucho ruido y poca señal, lo que complica aún más las cosas.
Incluso estuve buscando sin éxito otro articulo que hablaba de usar la desintegración de átomos radiactivos para dicha generación, también totalmente aleatorios por supuesto.
-------------------
Los algoritmos estadísticos (usados correctamente) son bastante más robustos. Una práctica común es separar observaciones en datos de entrenamiento / validación; con los datos de entrenamiento puedes encontrar relaciones espurias del estilo de las de este post, pero la probabilidad de que estas relaciones pasen la validación es muy baja. Dependiendo del problema estadístico, también se pueden corregir (estilo Bonferroni) los umbrales para comparaciones múltiples para minimizar el problema (no eliminar, porque cualquier test estadístico siempre tiene una probabilidad no nula de fallar simplemente por azar).
Una cosa en la que sí estoy de acuerdo con el post es que los modelos estadísticos, por sí solos, sólo describen los datos: hay que tener cuidado al formularlos e interpretarlos para extraer conclusiones válidas (p. ej. a la hora de interpretar los coeficientes de una regresión múltiple en presencia de multicolinealidad, endogeneidad, variables ocultas, etc). Sólo la combinación de teoría con datos produce conocimiento fiable.
Luego el análisis de series temporales ya es un mundo aparte.
-------------------
gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/#comment-
El artículo está bien escrito para un tercero que no tenga ni idea del asunto. Por éso por dos veces puse:
Leer hasta la parta de la pseudoaletoriedad: porque ahí esta el meollo de la explicación (si no se entiende se busca algo en Wikipedia) Y es lo que hice (por éso, como te escribo al final de #8) no pude enviarla:
Porque me la leí e intenté buscar lo que no comprendía con exactitud. Y esa parte la busqué para saber de qué va el asunto exactamente y cómo se hace. Por eso en #2 te digo, "no es una crítica" ("para nada, lo que ánimo es a leerlo"!)
Pero tu, tienes que tener razón, al parecer. Siempre.
Determinismo: sí. Por mucho que intentemos crear programas que muestren aleatoriedad, al final no podemos conseguirla 100% o me equivoco?
Por cierto gracias por tu tuit, lo pondré inmediatamente en la bio (a ver si puedo usar el móvil). Me ha hecho mucha ilusión lo de comentario ignorante de la semana
En el ejemplo que expone, seguro que aplicando validación cruzada ya sacas que esa correlación es pura casualidad.
Esto lo escribe cualquiera que no sea gallir y no le hacéis ni puto caso. Hay 800 posts como ese o mejor. No aporta nada.