El peligro de las interpretaciones estadísticas

Creo que no es ningún secreto, que cuando se nos ofrece datos estadísticos en alguna noticia, esto en general nos puede proporcionar una información muy valiosa, pero a su vez aún dándonos datos 100% correctos, puede ser que con estos consigan engañarnos. Así que en este artículo quiero presentar algunos conceptos básicos de estadística, tan básicos que la gran mayoría ya sabréis, y unos cuantos ejemplos que pueden llevarnos al engaño.

Empecemos por la media. La media indica como su nombre indica el valor medio de una variable. Si por ejemplo queremos calcular el sueldo medio de todos los españoles, pues sumamos lo que ganamos entre todos y lo dividimos entre el número de trabajadores. Y lo mismo se puede hacer para yo que sé, altura media, peso medio y un sinfín de variables. Y este es el dato que más se da al hablar de estadísticas la media.

Pero si nos quedamos en la media esto nos da muy poca información ya que sería interesante saber si la población está general muy cerca de la media o se dispersa. Y para esto está la desviación típica. La desviación típica lo que nos viene a decir es cuánto se desvía cada individuo de la media, es casi como la media respecto la desviación de la media (en realidad se hace con los cuadrados de estas desviaciones y se aplica luego la raíz). En fin, sin meternos en la fórmula matemática una desviación típica pequeña nos va a decir que la media es un dato más que interesante que nos da una información muy buena de lo que pasa, y una desviación típica grande dice todo lo contrario. Pero lo cierto es que es muy raro que en una noticia se dé también la desviación típica.

También habréis oído hablar de la moda. Esto lo que nos indica es simplemente qué valor es el que más se repite. Cuando el espectro de distintos valores es muy amplio lo que se suele hacer es en lugar de estudiar valores exactos, es ver qué intervalo de valores se repite más. Vamos, que la moda nos podría decir por ejemplo que en tal país el valor de los sueldos anuales que más se repite está entre 20.000 y 25.000 euros (dato dado al azar de país sin concretar). Mucha gente opina que la moda es más relevante que la media, aunque en mi opinión solo es así si dicho valor que se repite lo hace en un porcentaje considerable.

Y hay otro valor que le gusta a mucha gente, la mediana. La mediana lo que nos dice es que el 50% de la población llega como mucho a ese valor, y por tanto la otra mitad de la población lo supera. Una información que parece bastante interesante.

Relacionada con la mediana están los cuartiles, que vienen a ser como la mediana, pero dividiendo la población en 4 grupos en lugar de 2. Concretamente el primer cuartil indica que el 25% de la población llega como mucho a ese valor, el segundo cuartil lo mismo con el 50%, es decir, es la mediana y el tercer cuartil indica que el 75% de la población está por debajo de dicho valor. Y también relacionado con esto están los percentiles, donde el percentil X indica que el X% de la población está por debajo de ese valor.

Hay muchas más herramientas estadísticas, pero ahora mismo diría que raro que así en noticias generales se usen otros términos. De hecho lo normal es que hablen de la media y si acaso de cuartiles y percentiles. Y quedarse solo con la media suele ser insuficiente. Lo mejor sería tener varios datos, por ejemplo media y cuartiles (mediana incluida).

Veamos por ejemplo la diferencia entre salario medio y mediano en España, donde veréis que la diferencia es significativa. En la página del Instituto Nacional de Estadística se puede consultar en varios años, el más reciente que me sale ahora mismo es 2017, y sale separado por sexo. Dichos salarios en bruto y anuales son (redondeados sin decimales):

Salario medio de un hombre, 26.392 euros, salario mediano 21.970.

Salario medio de una mujer, 20.608 euros, salario mediano 17.215.

Aparte de la diferencia de salarios entre hombres y mujeres, cosa que no voy a discutir aquí, se ve que el salario mediano es bastante más bajo que el medio, hay una bajada entre el 16 y el 17%. ¿Y esto a qué se debe? Pues claramente a que los salarios más bajos no pueden ser mucho más bajos, por lo que no bajan demasiado la media en comparación con los salarios más altos donde no hay tope, con lo que algunos salarios pueden subir mucho la media. En cualquier caso, decir que un hombre en España en 2017 de media ganaba algo más de 26.000 euros, si bien es correcto, nos da una idea equivocada, porque la mitad de la población no llegaba ni a los 22.000 euros.

Observad que independientemente de que estos datos sean más o menos representativos, al menos se está teniendo en cuenta en todo el momento el tamaño de población total. Indico esto porque aunque en noticias sea más difícil encontrarlo, lo que es aquí en Menéame en comentarios ya no es tan raro que se pongan a comparar datos sin tener en cuenta esto. No voy a citar ningún comentario para no señalar a nadie, pero los hay. En cualquier caso un ejemplo de este uso incorrecto de los datos sería que la comunidad de Madrid fomenta el fútbol mucho más que Soria porque en primera división juegan muchos más jugadores madrileños que sorianos. Pero es que las poblaciones de Madrid y Soria son totalmente dispares, Madrid varios millones, Soria ni 100.000. Así que ese dato por sí solo no valdría para hacer esa comparativa.

Pero es que aunque se usen datos estadísticos, a veces también se puede manipular la información porque se estén obviando ciertas variables. Por ejemplo recuerdo que con esto del coronavirus, cuando se empezó a vacunar, que se empezó con personal sanitario y personas mayores, se llegó a publicar una noticia que no recuerdo la cifra exacta, pero decía que algo así como el 60% de los ingresados en UCI por coronavirus estaban vacunados. ¡La vacuna es mala! No, no, para nada. Lo que se obvia si te quedas con ese titular es que la gente más propensa a terminar en UCI por coronavirus es por rangos de edad la gente mayor, y esa era precisamente la que estaba vacunada. Y aunque la vacuna sea buena no es perfecta, por lo que aún vacunados, tenían todavía más posibilidades de acabar en UCI que gente más joven no vacunada. Conforme se ha ido avanzando con lo de la vacuna está claro que estas influyen mucho en no tener que pasar por UCI. Y hablando de coronavirus, incluso los datos de números de enfermos o muertos por cada 100.000 habitantes tampoco por sí solo es un buen indicador de si esta población lo está haciendo mejor que esta otra, ya que hay muchos factores a tener en cuenta como movilidad, envejecimiento de cada población, densidad de población, etcétera.

Pero cambiemos de tema. Vamos ahora a un ejemplo clásico. He buscado y en torno al 25% de los muertos en accidente de tráfico no llevaban el cinturón puesto. ¡Entonces el 75% de los muertos llevaba el cinturón! ¡Es mejor no llevarlo! Creo que salta a la vista por qué esta conclusión es errónea, ¿no? Resulta que la gran mayoría de la gente lleva el cinturón puesto, buscando en Google en algún sitio se habla de incluso un 99%, aunque no sé si será correcto. En cualquier caso, dando ese dato por correcto, suponiendo que la gente con y sin cinturón sea igual de responsable sería de esperar que por cada accidentado sin cinturón haya 99 con cinturón, y por tanto que si el cinturón no hiciera nada, por cada muerto sin cinturón haya 99 muertos con cinturón. Y sin embargo la relación es de 1 a 3, lo que indicaría que efectivamente el cinturón ayuda. Como digo no sé si el 99% es correcto, pero si fuera por ejemplo un 90% (que me parece poco), la relación 1 a 9 sería mayor igualmente que la de 1 a 3. Por cierto, he puesto al principio un 25%, es solo una aproximación. Lo que he visto en Google es que algún año ha sido un 23%, otro un 26% y así, así que he cogido un número intermedio así redondo.

Y es que estudiar unos datos sacando conclusiones que engañen es bien fácil. Por ejemplo podemos demostrar (erróneamente) que leer Harry Potter disminuye considerablemente la esperanza de vida. ¿Cómo? Pues vayamos a un cementerio cualquiera, que sea grande mejor, y estudiemos las tumbas de la gente que ha muerto en los últimos 10 años (para que los libros estén ya escritos). Imaginad que de alguna forma somos capaces de averiguar quién de toda esa gente ha leído algún libro de Harry Potter y estudiemos la edad media con la que han muerto los que han leído algo de Harry Potter y la edad media de los que no. Pues bien, no lo he hecho, pero estoy seguro de que saldría que la edad media de los que leyeron Harry Potter sale mucho menor que la de los que no lo leyeron. ¿Eso es porque estos libros son peligrosos? No, es mucho más sencillo, está claro que la lectura de estos libros se concentra sobre todo en gente joven, y por tanto no han pasado suficientes años para que mueran de viejos la gran mayoría de estos. Otra cosa es que se hiciera el mismo estudio dentro de 50 años, 100 años o algo así.

Así que ante cualquier dato estadístico, antes de sacar alguna conclusión precipitada hay que tener en cuenta si los datos que salen no están afectados por otros factores. Y es que como ya sabréis, correlación no implica causalidad. Y de ahí que muchas teorías científicas vayan cambiando con los años.

Por cierto, imaginad que paseáis por Roma cuando el Imperio Romano estaba en todo lo suyo. ¿Cómo pensáis que será la gente allí? ¿Muy mayor? ¿Muy joven? Es difícil obtener unas estadísticas, pero se estima que la esperanza de vida en aquella época rondaba los 20-30 años. ¿Quiere decir eso que era muy raro ver gente mucho mayor? ¿Que estaba todo lleno de jovenzuelos? Pues no, porque como hemos dicho antes, la media no es muy representativa por sí sola y calcular la media con la que muere la gente nos puede llevar a engaño. De hecho lo que pasaba por entonces es que la mortalidad infantil era muy grande, muriendo muchos niños incluso en el parto o a los pocos días. Y claro, esto hace que la media baje muchísimo. Sin embargo es de suponer que si estudiáramos por ejemplo a la gente que ha sobrevivido hasta los 20 años, pues no sé, pero lo mismo limitándonos solo a ellos luego nos saldría una esperanza de vida de 60 años o más. Vamos, que posiblemente hubiera más gente con más de 40 años que entre 20 y 30.

¿Habéis oído que la esperanza de vida de un zurdo es varios años menor que la de un diestro? Pues en un principio también es falso. En algún estudio que se hizo en su momento se afirmaba así, y con hasta 9 años de diferencia. Y lo que hicieron fue estudiar la edad de los muertos en los últimos no sé cuántos años. Parece razonable pero ¿qué falla? Pues básicamente lo mismo que en lo que hemos dicho de Harry Potter. Sí, aunque no lo parezca. Porque resulta que ahora hay más zurdos, o mejor dicho, habrá los mismos, pero antes había cierta presión y mucha gente que en realidad era zurda terminaba viviendo como diestra. Así que cuando hicieron el estudio había pocos zurdos con más de 80 años porque 80 años atrás era muy poca la gente que terminaba "siendo zurda". Y sin embargo entre los muertos más jóvenes, de menos de 40 años había un porcentaje de zurdos mayor debido a que en esos últimos 40 años no había tanta presión y por tanto había más gente zurda. A todo esto, conforme escribía esto de la represión de los zurdos he pensado que si se hiciera lo mismo con homosexuales, por el mismo motivo bajaría erróneamente en muchos años su esperanza de vida.

En fin, podría seguir dando ejemplos similares de datos que son reales, totalmente correctos, pero que nos llevan a conclusiones erróneas, a veces de forma accidental, y muchas otras transmitidas de forma intencionada. Y ojo, nos hemos metido con dar datos correctos. Podríamos dar muchos ejemplos de cómo presentar los datos llevando descaradamente al engaño. Con solo hablar de la manipulación en los gráficos de barra tendríamos para hablar y hablar bastante. Y luego el tema de cómo interpreta cada uno los datos, que si tal partido ganó las elecciones municipales porque ganó en más municipios, pero tal otro fue el ganador porque contando los habitantes de los municipios en los que han ganado son los que más habitantes suman, y luego incluso puede haber un tercer partido que sea el que más votos haya sacado en total.

Como regalo final, un pequeño chiste estadístico:

Cada vez que un usuario de menéame se da de baja para crearse una cuenta en forocoches, el cociente medio de ambas redes sociales disminuye.

¿Cómo sería esto posible? ¿O me estoy metiendo con una de las dos páginas? Podéis opinar más abajo.