La ciencia padece una crisis de reproducibilidad: a los investigadores les preocupa cada vez más que la bibliografía académica esté plagada de resultados irreproducibles. Muchos científicos temen que el umbral del 0,05 ha hecho que se publiquen muchos falsos positivos. Uno de los estadísticos muestrales más utilizados, el llamado valor p, debería estar sometido a criterios más estrictos, dicen los investigadores.
|
etiquetas: estadística , valor p , umbral del 0 , 05 , p-hacking
Como medidor del riesgo que tomas al no rechazar o rechazar la hipótesis nula ya se suele recurrir al tamaño del efecto. Dentro del mundo académico no creo que haya nadie actualmente que no lo pida como complemento al p-valor del contraste.
La final, lo más importante es un buen muestreo. Y eso cuesta dinero...
0,01
0,05
0,10
son valores que se usan tradicionalmente de la época en que no existían ni calculadoras estadísticas ni ordenadores, lo cual tenía como consecuencia que usar estos valores simplificaba la consulta práctica de tablas, pues al ser los valores usados por todo el mundo las tablas correspondientes eran fáciles de conseguir. En cambio, si querías usar otro valor podías hacerlo si podías conseguir o calcular las tablas correspondientes y que los demás te aceptasen valores poco normales (). Actualmente podrías usar practicamente cualquier valor y con un par de clicks puedes conseguir el valor p, incluso usando una hoja de cálculo.
De todas formas teniendo un tamaño de la muestra adecuado, el 0,05 puede ser también adecuado. Todo depende de los datos que se tengan.
En estadística multivariante se siguen usando p-valores, pero no siempre son necesarios para tomar una decisión o comprar grupos. Depende de la técnica, la naturaleza de los datos y lo que se desee hacer con ellos.
Na, a pesar de que no me guste, la estadística es muy útil. Aquí lo que dice es que el p-valor que se toma para los contrastes de hipótesis, 0.05 (sobre 1) es demasiado grande. Vamos, que haya un 5% de posibilidades de conseguir un falso positivo es mucho, que digamos que uno de cada 20 casos positivos será erróneo. Disminuir el valor de p implica aumentar el tamaño de la muestra y por tanto los costes.
No me fastidies que despues de todo lo que sufri para sacarme estadistica en la carrera con sus hipotesis, rangos de confianza, p-valor, regresiones lineales, xi cuadrado, Levine y su madre ... y resulta que no vale??
Sin ánimo de ofender, ese párrafo al completo es un desvarío. En mi facultad también había un departamento de estadística e I.O....y aparte uno de análisis matemático, y otro de álgebra -sí, tooodo un departamento para ellos solitos-, no había una generalidad llamada "Departamento de Matemáticas" ¿Significa eso que el álgebra no son matemáticas de verdad?. Matemáticas es una cosa, Estadística otra, ramas que divergen de un nexo común, de ahí que decir que no son "matemáticas de verdad" es una estupidez.
www.youtube.com/watch?v=SWl-9FzWaLY
Por ejemplo, con una muestra muy grande (pongamos 100.000 personas en cada país) uno podría decir que hay una diferencia significativa (p-value<0.05) entre el 81% de franceses que les gusta el queso y el 80% de españoles que afirman lo mismo -datos inventados-. Es decir todo apunta a que si preguntásemos a toda la población francesa y española habría alguna diferencia real entre ambos países. Esa diferencia real será de alrededor de 1 punto pero no tiene porqué coincidir exactamente.
¿Tiene eso alguna importancia en la práctica? Probablemente ninguna. Es una diferencia 'estadísticamente significativa' pero sin relevancia para ninguna decisión o descripción práctica.
También se podría dar el caso más extremo de un medicamento que alarga la vida de pacientes con alguna enfermedad grave, pongamos que pasase de 16 semanas en promedio a 17 y que esa diferencia también fuese significativa con p<0.05 (ello dependerá del tamaño de la muestra y la dispersión de los resultados).
Sería discutible si ese incremento supondría una diferencia positiva o negativa en función del coste del tratamiento y especialmente de los efectos secundarios que provoque en la calidad de vida del paciente.
Por si queréis jugar con significancias: www.socscistatistics.com/tests/Default.aspx
Ciencias Sociales: neoliberales.
Curioso que sean los papers menos fiables.
Yo acuso, a los responsables de la mayor perversion de publicaciones.
La mentira necesita a una autoridad que se pueda comprar. La estadistica es una herramienta cojonuda para ello. A la denuncia de esta gente me remito.
Por otro lado:
(1) si no hay diferencias reales entre los datos sabemos que en 1 de cada 20 veces (p=0.05) aparecerán diferencias estadísticas que no lo son
(2) si en la práctica se publican básicamente los resultados con diferencias significativas obviando resultados neutros donde no se hayan diferencias, entonces:
(3) la proporción de resultados positivos que no lo son en las publicaciones puede ser muy superior a ese 5% que sugería el p=0.05. Dependiendo de la relación que exista entre esos 'falsos positivos' y los 'positivos reales' de otras publicaciones, ello debido a que los resultados 'negativos reales o falsos' no se publican o se publican poco.
Otra posible solución es que no se considere un resultado como robusto hasta que pueda haber sido reproducido al menos por un equipo independiente con lo que la probabilidad de 2 falsos positivos sería menor -> 0.05 x 0.05 = 0.25% o 2.5 entre 1.000.
Hay vida mas alla del neoliberalismo. Los neoliberales no inventaron el dinero, ni la tecnologia, ni la justicia, ni la libertad, ni la cultura... su contribucion ha sido diseñar un sistema en el que todas esas cosas colaboren para jodernos a todos vivos.
www.ted.com/talks/ben_goldacre_what_doctors_don_t_know_about_the_drugs
#8 Gracias, siempre atento.
Aunque para lo que nos atañe, si tienes curiosidad por el tema te recomiendo cualquier artículo que tenga como referencia "biplot". Aunque la familia de técnicas es muy extensa, podrás encontrar cómo un HJ-biplot te soluciona ingentes cantidades de problemas por comparación gráfica en un plano. Por un lado están las variables: edad, peso, talla, color, tamaño, sexo y un largo etc. Las variables pueden estar codificadas como quieras: unas dicotómicas, otras escala numérica, otras por grupos. Da igual que se junten peras con manzanas, si están medidas con las mismas variables, funciona. Por otra parte están los sujetos que tienen diferentes medidas de las variables tomadas, rojo, 33, 1, 0'77... Para el sujeto 1, para el 2 azul, 84, 0, -6... Y así con todos los sujetos que pueden ser miles, millones o lo que sea. Después se ponen en una misma gráfica todos esos datos. Y se pueden hacer agrupaciones, comparaciones, manova, probabilidades y un montón de cosas más.
Por cierto, en tu caso se debe al número de registros.
Como sabemos, el contraste saca conclusiones del conjunto real (población) a partir de un subconjunto minúsculo de sus datos (muestra), por lo que aunque seamos muy cuidadosos en el muestro (nada de errores sistemáticos ni ilegítimos), siempre tendremos errores aleatorios que eliminaremos usando medidas estadísticas, las cuales impondrán un error de variabilidad mínimo (cota cramer rao). Así que aunque elijamos bien ese estadístico (insesgado, eficiente, consistente, blablablá) y un modelo correcto para nuestro experimento (los modelos no paramétricos aportan en general menos información) debemos construir bien la hipótesis a refutar para reducir el error tipo I (no rechazarla siendo cierta) porque sólo tendremos información sobre el contraste si rechazamos la hipótesis nula. Y aquí aparecen las tentaciones (sesgo) de los investigadores, más proclives a rechazar con el nivel de significación que hayan elegido (0.01 o 0.000001) aún estando el dato en la frontera, sin interpretarlo, sin explicar tamaños muestrales, variabilidades y obviando medidores del riesgo como el tamaño del efecto.
En resumen creo que el problema radica más en las ganas de obtener resultados/financiación que en el desconocimiento de estadística inferencial (inductiva) básica:
"No rechazar" no es "aceptar" la hipótesis nula, NO RECHAZAR NO APORTA INFORMACIÓN (o aporta muy poca), tu investigación se va a la mierda.
" Rechazar" sí aporta resultados a la investigación, RECHAZAR PERMITE ACEPTAR la hipótesis complementaria. Investigación productiva.