Articulista en vozpópuli y "experto" en Big Data cazado falseando datos. La historia de López Zafra

Este artículo fue inicialmente publicado en Twitter en forma de hilo. Se agradece difusión. twitter.com/Martinez__Rafa/status/1259472794817048577?s=20

Las manipulaciones en RRSS están a la orden del día, y la difusión de bulos crece sin control. Tal es el nivel de desinformación que incluso supuestos "expertos" contribuyen a generar y expandir inexactitudes deliberadamente. Hoy toca hablar de Juan Manuel López Zafra, profesor de Estadística e Investigación Operativa, autodenominado "experto" en Big Data, doctor en Ciencias Empresariales e influencer del liberalismo económico en Twitter.

Juan Manuel, durante las últimas semanas, ha presumido de haber calculado con un método propio la cifra aproximada de muertes por Coronavirus en España. Ya el 9 de mayo hablaba de esa cifra.

De una persona con el currículum mencionado anteriormente esperaríamos un análisis riguroso, ¿no? Pues bien, lo que verán a continuación les sorprenderá...

Juan Manuel afirma que la cifra de muertos a causa del COVID es mucho más alta que la oficial proporcionada por el Ministerio de Sanidad, e incluso bastante superior a los excesos de mortalidad recogidos en los informes MoMo. ¿Cómo ha llegado a esa cifra exacta? Veamos. 

Juanma parte de una noticia de Europa Press donde se recoge que Mapfre ha prestado 3100 servicios de decesos por COVID. Adicionalmente, Juanma añade que Mapfre en España tiene un 13.7% de cuota, y que el 47% de la población española está cubierta por un seguro de decesos.

Desconozco la veracidad de esos datos, pero démoslos por buenos, pues son los que Juan Manuel utiliza para su análisis. Bien, la pregunta es, ¿cómo con esos tres datos tan sencillos Juanma es capaz de estimar con precisión el total de decesos por COVID? 

El método científico de Juanma es... una regla de tres. Si Mapfre con un 13.7% de cuota ha notificado 3100 decesos, eso implica que todas las aseguradoras habrán notificado 3100x100/14=22627 decesos. Si las aseguradoras cubren al 47% de la población, el total será 22627/47x100.

Esa operación nos entrega un resultado de 48144, que es la cifra que Juanma utiliza para decir que en España hay aproximadamente 50000 decesos por #COVID19. La pregunta inmediata es, ¿cómo de rigurosa es esa cifra y el método usado? 

Cualquier persona con mínimas nociones de estadística o matemáticas se habrá dado cuenta que este método hace aguas por todas partes. Una regla de tres a fin de cuentas no deja de ser una interpolación lineal, por tanto se corre el riesgo de que los resultados estén muy sesgados. 

Utilicemos un ejemplo muy sencillo. Imaginemos que en España un 5% de la población juega a la petanca. Imaginemos que entre los jugadores de petanca hay 5000 muertos por COVID. Según el método de Juanma, si entre el 5% de la población hay 5000 decesos en el 100% de la población habrá 5000x20=100000 decesos. Es evidente que este dato sería erróneo. La población que juega a la petanca suele ser de avanzada edad, por tanto la letalidad asociada al COVID será también mayor en ese grupo. 

Este error es un claro ejemplo de "sesgo de selección". Como soy nefasto explicando conceptos, dejo aquí este simpático vídeo donde se explica de una manera muy sencilla (a partir del minuto 4:30 aproximadamente, por Julio Basulto).

Volviendo al método de Juanma, él parte de los casos de mortalidad notificados por Mapfre por COVID para a continuación extrapolarlos a toda la población. Se intuye el sesgo de selección, ¿no? 

Es intuitivo pensar que la población que tiene un seguro de vida es de media más mayor que la que no lo tiene. De hecho, ¿cuánta gente joven conocéis que tenga seguro de vida? A falta de datos, es razonable pensar que extrapolar a toda la población ese dato es bastante engañoso. Varias personas en los comentarios han puntualizado este mismo razonamiento a Juanma, a lo que él responde (sin dar demasiada información) que "ese sesgo está recogido en la cifra de Mapfre". ¿Cuál de las dos cifras de Mapfre?

Parece evidente que no en la del número de decesos notificados por la compañía. No tiene ningún sentido normalizar un número de "muertes notificadas". Por tanto el único dato que nos queda es la "cuota de mercado".

Me parecería muy extraño que una cuota de mercado esté normalizada, de todos modos demos el beneficio de la duda y esperemos que @jmlopezzafra ponga algo más de luz en esto. En cualquier caso, aunque la cuota de mercado se encuentre normalizada, el cálculo seguiría siendo erróneo. ¿Por qué? Es algo más complicado de explicar en un tuit, y dependería de como se haya incluído el sesgo (si ha sido así) en la cifra que proporciona Juan Manuel. Si da más detalles de cómo se ha llegado a esa cifra estaré encantado de demostrarlo matemáticamente. 

En conclusión, esta información, que se ha demostrado del todo errónea, va ya por más de 300 retuits (entre ellos de cuentas de audiencias amplias como Luis del Pino), por lo que es de pensar que decenas de miles de personas lo han leído, muchas de ellas dándolo por válido. Y es que Juan Manuel López Zafra, el autor del "cálculo", es doctor en CCEE, profesor de Estadística y científico de datos. Por tanto, es de suponer que mucha gente que le sigue acepte lo que escribe por una suerte de falacia de autoridad.

Conclusión: no os creáis todo lo que leéis, contrastad fuentes y, sobre todo, para asuntos relacionados con el COVID, buscad la opinión de expertos en epidemiología y sanitarios, no la de economistas y licenciados en empresariales. 

Plot twist: Juan Manuel ha leído el hilo y, como es evidente, no ha podido refutar ni una coma. Aún así ha dejado dos respuestas que servirán de cierre definitivo para este hilo. Obviemos los malos modales en la respuesta (cosas de la educación privada, imagino). Veamos:

Juan Manuel invita a leer el informe de Mapfre. Honestamente me encantaría, pero no he dado con él, y Juan Manuel no parece querer compartirlo. Para finalizar, menciona en repetidas ocasiones que el "factor de elevación" justifica a su burda regla de tres. En cualquier caso, ya que Juan Manuel pone encima de la mesa el factor de elevación, hablemos del factor de elevación. ¿Qué es y para que se usa? Intentaré explicarlo. 

Imaginemos que hacemos una encuesta por teléfono para preguntar a la gente cualquier cosa. Por ejemplo, cuál es su color favorito y cuál es su edad. Imaginemos que hacemos muchas llamadas hasta alcanzar una muestra que consideremos representativa. 

Bien. Podríamos ordenar los datos y saber a qué % de la gente que hemos encuestado le gusta un color u otro. Como nuestra muestra es muy grande, un análisis ingenuo sería decir: "el color favorito de un 20% de los españoles es el azul". ¿Por qué esta afirmación sería ingenua? Porque estaríamos asumiendo que nuestra muestra es completamente similar al conjunto de los españoles. Es decir, que el % de gente entre 18-25 años (por ejemplo) en nuestra muestra (entre la gente que hemos llamado) es el mismo que el % de gente entre 18-25 años en el censo. 

¿Es esto correcto? Probablemente no. Si hacemos llamadas telefónicas, probablemente habrá más respuesta de gente mayor (porque suelen pasar más tiempo en casa) y menos repuesta de gente en edad de trabajar (por el motivo contrario) y de gente muy joven (pues no van a responder). Por tanto, el resultado de nuestra encuesta no es directamente extrapolable a toda la población. Es decir, no se puede hacer una regla de tres para asumir cual es el color favorito de los españoles (lo siento @jmlopezzafra, tu herramienta favorita no sirve). 

Ahora bien, ¿hay alguna manera de corregir este error? Bueno, en nuestra encuesta hemos preguntado el color junto con la edad, ¿no? Entonces sabemos las franjas de edad de nuestra muestra. También sabemos las franjas de edad de la población española, consultando el censo. Se va intuyendo la solución, ¿no? Sabemos el "peso" que cada franja de edad tiene en nuestra muestra y en el total de los españoles. Es decir, podemos cuantificar si en nuestra muestra hay más o menos gente joven que la que en realidad hay en España, o si hay más o menos ancianos 

Es decir, si en nuestra encuesta hay un % más bajo de gente joven que la que realmente hay en España, la opinión de esa gente joven está "infrarrepresentada". Y al contrario, si nuestra muestra incluye un % mayor de gente anciana, su opinión estará "sobrerrepresentada". 

Bien, entonces parece obvio que los datos de nuestra encuesta hay que corregirlos para que cada franja de edad tenga el mismo "peso" y la misma representación que la que hay en el conjunto de la sociedad. ¿Cómo se hace esto? Efectivamente, con un factor de elevación. 

Aquí tenéis dos links por si queréis algo más de información de como se hacen estos cálculos. Concretamente estos dos ejemplos son de Encuestas de Población Activa, donde el uso de factores de elevación es muy habitual.

ine.es/epa02/reponder…

josamaga.webs.ull.es/jsmg-epa.pdf 

Ahora bien. ¿Justifica esto los cálculos de Juan Manuel? Evidentemente no. En primer lugar, él no utiliza en ningún momento factores de elevación. Repasad el hilo original, al que encuentre una sola mención a estos factores en sus cálculos le invito a una cena. En segundo lugar, si utilizara factores de elevación tendría que aplicarlos a la cifra de muertos por Covid proporcionada por Mapfre, para así poder extrapolarla al total de España y ser más riguroso. Cosa que no hace. Hace una regla de tres, que es totalmente lineal. 

La última baza que le queda al doctor Zafra es argüir que el 13.7% de cuota de mercado ya incluye ese factor de elevación. ¿Es esto posible? Respuesta corta: no. 

Con esto se cierra, espero que ya de forma definitiva, este hilo. No espero una respuesta del ínclito Juan Manuel, no creo que haya excusa que pueda usar para seguir justificando su bulo. Solo queda difundir la verdad, así que si has llegado hasta aquí, se aprecia difusión. 

Pequeña actualización. Como bien indica @juvenal_tw, en este artículo de @65ymuchomas se encuentra el dato que el sr Zafra utiliza en su análisis, la cuota de mercado de Mapfre (13,81%).

www.65ymas.com/economia/empresas/santalucia-ocaso-mapfre-dominan-65-po

La fuente original es el estudio "primas devengadas de seguro directo 2018", por @Inese_seguros data. El estudio no es open access y su precio es elevado, por tanto no lo podemos verificar.

Sin embargo, por lo que se deduce del artículo de @65ymuchomas, la cuota de mercado no tiene ningún tipo de corrección, como era obvio. Es más, la cuota de cada aseguradora está calculada sobre el total del volumen de primas, no respecto al total del volumen de clientes. 

Es decir, la simple regla de tres de Juan Manuel tiene aún menos sentido ya que está asumiendo que la cuota calculada respecto al volumen de primas es igual a la que resultaría si se calculara respecto al volumen de clientes, lo que no tiene por qué ser verdad. Otro error más. 

Ahora sí, a falta de respuesta de Juan Manuel, damos por cerrado el artículo. FIN.

Y ante la falta de argumentos... una pena.