Grandes expertos en el uso de la estadística proclaman que 0,05 no es el filtro adecuado

255 meneos

2994 clics

Grandes expertos en el uso de la estadística proclaman que 0,05 no es el filtro adecuado

La ciencia padece una crisis de reproducibilidad: a los investigadores les preocupa cada vez más que la bibliografía académica esté plagada de resultados irreproducibles. Muchos científicos temen que el umbral del 0,05 ha hecho que se publiquen muchos falsos positivos. Uno de los estadísticos muestrales más utilizados, el llamado valor p, debería estar sometido a criterios más estrictos, dicen los investigadores.

| etiquetas: estadística , valor p , umbral del 0 , 05 , p-hacking

123 132 5 K 312 cultura

37 comentarios

123 132 5 K 312 cultura

Comentarios destacados:

#1 Penrose *

Pero es que el valor P tampoco es el santo grial. Sin ir más lejos el otro día con una prueba paired t test en dos series de tiempo tenía un valor de 0,0000 bla bla bla, es decir, muy bajo, y yo sé que la muestra es una mierda como un piano, y eso que son como +100k registros. Muy bien por la recomendación pero el p-hacking no sucede porque sí. Sucede que hay unos incentivos que conduce a cierta gente a hacerlo.

8 55
#2 pontew74 *

El p-valor es lo que es, un límite académico orientativo que no es la panacea para la interpretación de los resultados. Que el resultado de un contraste de hipótesis nos dé un 0,051 no quiere decir que no se pueda rechazar la hipótesis nula ni al contrario, un resultado del 0,049 no tiene porque ser significativo. Depende del tamaño muestral, del procedimiento, de la prueba realizada (paramétrica o no), etc

Como medidor del riesgo que tomas al no rechazar o rechazar la hipótesis nula ya se suele recurrir al tamaño del efecto. Dentro del mundo académico no creo que haya nadie actualmente que no lo pida como complemento al p-valor del contraste.

12 81
#3 Forestalx

Al final lo importante más que el p-valor o cualquier otra cosa es saber interpretar la estadística. Los números por si solos pueden hacernos creer algo equivocado.
La final, lo más importante es un buen muestreo. Y eso cuesta dinero...

7 52
#4 Corvillo

#2 No sólo eso: hay que recordar que los valores
0,01
0,05
0,10
son valores que se usan tradicionalmente de la época en que no existían ni calculadoras estadísticas ni ordenadores, lo cual tenía como consecuencia que usar estos valores simplificaba la consulta práctica de tablas, pues al ser los valores usados por todo el mundo las tablas correspondientes eran fáciles de conseguir. En cambio, si querías usar otro valor podías hacerlo si podías conseguir o calcular las tablas correspondientes y que los demás te aceptasen valores poco normales (). Actualmente podrías usar practicamente cualquier valor y con un par de clicks puedes conseguir el valor p, incluso usando una hoja de cálculo.

10 76
#5 Corvillo *

#3 Así es, hace poco salió en portada el Datasaurus que ilustraba eso a la perfección

2 22
#6 Hengli *

Relacionado:

16 93
#7 mando

Desde hace tiempo se toman como válidas las gráficas y su interpretación en vez de p-valores. Pero sí, el 0,05 es por tradición y no por otro motivo.
De todas formas teniendo un tamaño de la muestra adecuado, el 0,05 puede ser también adecuado. Todo depende de los datos que se tengan.
En estadística multivariante se siguen usando p-valores, pero no siempre son necesarios para tomar una decisión o comprar grupos. Depende de la técnica, la naturaleza de los datos y lo que se desee hacer con ellos.

0 10
#8 --137040--

@fantomax a lo mejor te interesa que yo no me he enterado

1 16
#9 Penrose

#7 Cómo las graficas¿ No te entiendo.

0 9
#10 juvenal

¿Quieres que te demuestre algo? dame una sería suficientemente grande de datos, que ya te elegiré la muestra

1 14
#11 --397323--

#10 Totalmente, una vez me dio por jugar un poco con la muestra, y es increible lo rapido que pude colocarlo en p<0.05, no tenia ningún incentivo en ello, pero si mi trabajo dependiese de aquel resultado, seria muy tentador dar gato por liebre.

2 18
#12 --165145--

#8, te lo resumo yo, la mayoría de los que hacemos matemáticas solemos decir que la estadística no son matemáticas de verdad, por eso en mi facultad había dos departamentos, "Departamento de Matemáticas" y el "Departamento de Estadística e Investigación Operativa", que por algo será, digo yo.

Na, a pesar de que no me guste, la estadística es muy útil. Aquí lo que dice es que el p-valor que se toma para los contrastes de hipótesis, 0.05 (sobre 1) es demasiado grande. Vamos, que haya un 5% de posibilidades de conseguir un falso positivo es mucho, que digamos que uno de cada 20 casos positivos será erróneo. Disminuir el valor de p implica aumentar el tamaño de la muestra y por tanto los costes.

10 80
#13 --507820--

Me cago en la p....!!

No me fastidies que despues de todo lo que sufri para sacarme estadistica en la carrera con sus hipotesis, rangos de confianza, p-valor, regresiones lineales, xi cuadrado, Levine y su madre ... y resulta que no vale??

1 9
#14 Javi-_Nux *

yo el mayor problema que me encontraba en mi campo para reproducir experimentos es que los algoritmos tenian heuristicas y parametros de tuning que nadie explicaba en los articulos y que o estaban bien ajustados o funcionaban como el culo

0 6
#15 --538185--

» ver comentario
#16 Sr.Aracnido

#12 "te lo resumo yo, la mayoría de los que hacemos matemáticas solemos decir que la estadística no son matemáticas de verdad, por eso en mi facultad había dos departamentos, "Departamento de Matemáticas" y el "Departamento de Estadística e Investigación Operativa", que por algo será, digo yo."

Sin ánimo de ofender, ese párrafo al completo es un desvarío. En mi facultad también había un departamento de estadística e I.O....y aparte uno de análisis matemático, y otro de álgebra -sí, tooodo un departamento para ellos solitos-, no había una generalidad llamada "Departamento de Matemáticas" ¿Significa eso que el álgebra no son matemáticas de verdad?. Matemáticas es una cosa, Estadística otra, ramas que divergen de un nexo común, de ahí que decir que no son "matemáticas de verdad" es una estupidez.

1 14
#17 elzahr

#13 Sí vale; simplemente cambias el valor de p al comprobar la hipótesis.

1 13
#18 --165145--

#16, para empezar queda claro que es una broma. Pero sí seguimos con ello, si no hay un departamento de Matemáticas es porque está troceado e distintos departamentos, así que no sé podría deducir que el álgebra no forma parte de las matemáticas. Pero en mi universidad era así (ahora está distinto), había un departamento que se llamaba tal cual de matemáticas. Así que ahí está lo raro, que haya un departamento de matemáticas y otro aparte de estadística y tal, perteneciendo ambos a la misma facultad.

0 18
#19 Sr.Aracnido

#18 En ese caso, disculpa por no saber ver que fuera una broma Con respecto al tema de los departamentos, supongo que la especialización dependerá del tipo de facultad -no será igual una facultad de ciencias que una de empresariales, por ejemplo-

0 9
#20 --165145--

#19, era la facultad de Matemáticas

0 18
#21 Nereu *

He tenido que ver un video para entender la noticia. Mi poder de cuñadismo ha aumentado 10 puntos.
www.youtube.com/watch?v=SWl-9FzWaLY

2 21
#22 --525496--

#15 Es aquí donde los que van de listos, porque luego cuando sale un artículo donde hay que aplicar estos conocimientos y ser crítico no sale casi ninguno de estos listos.

0 8
#23 Gilbebo *

Es que lo importante no es solo el p-value* si no de qué problema concreto estamos hablando. (*p-value = si ambos valores perteneciesen a la misma distribución de datos cuál es la probabilidad de que apareciese una diferencia entre ellos igual o mayor a la mostrada. Si la probabilidad es muy pequeña lo razonable es asumir que vienen de distribuciones distintas y por tanto esos promedios o porcentajes 'no son iguales')

Por ejemplo, con una muestra muy grande (pongamos 100.000 personas en cada país) uno podría decir que hay una diferencia significativa (p-value<0.05) entre el 81% de franceses que les gusta el queso y el 80% de españoles que afirman lo mismo -datos inventados-. Es decir todo apunta a que si preguntásemos a toda la población francesa y española habría alguna diferencia real entre ambos países. Esa diferencia real será de alrededor de 1 punto pero no tiene porqué coincidir exactamente.

¿Tiene eso alguna importancia en la práctica? Probablemente ninguna. Es una diferencia 'estadísticamente significativa' pero sin relevancia para ninguna decisión o descripción práctica.

También se podría dar el caso más extremo de un medicamento que alarga la vida de pacientes con alguna enfermedad grave, pongamos que pasase de 16 semanas en promedio a 17 y que esa diferencia también fuese significativa con p<0.05 (ello dependerá del tamaño de la muestra y la dispersión de los resultados).

Sería discutible si ese incremento supondría una diferencia positiva o negativa en función del coste del tratamiento y especialmente de los efectos secundarios que provoque en la calidad de vida del paciente.

Por si queréis jugar con significancias: www.socscistatistics.com/tests/Default.aspx

3 29
#24 --432051--

Ciencias biomedicas: farmaceuticas.
Ciencias Sociales: neoliberales.

Curioso que sean los papers menos fiables.

Yo acuso, a los responsables de la mayor perversion de publicaciones.

La mentira necesita a una autoridad que se pueda comprar. La estadistica es una herramienta cojonuda para ello. A la denuncia de esta gente me remito.

0 7
#25 --538185--

» ver comentario
#26 Gilbebo *

También puede ser que ahora se esté cargando contra el valor 'p' como origen principal de la irreproducibilidad de muchos estudios científicos cuando en realidad lo que hay es una mala praxis con datos retocados, filtrados o directamente inventados para conseguir p-values significativos.

Por otro lado:

(1) si no hay diferencias reales entre los datos sabemos que en 1 de cada 20 veces (p=0.05) aparecerán diferencias estadísticas que no lo son

(2) si en la práctica se publican básicamente los resultados con diferencias significativas obviando resultados neutros donde no se hayan diferencias, entonces:

(3) la proporción de resultados positivos que no lo son en las publicaciones puede ser muy superior a ese 5% que sugería el p=0.05. Dependiendo de la relación que exista entre esos 'falsos positivos' y los 'positivos reales' de otras publicaciones, ello debido a que los resultados 'negativos reales o falsos' no se publican o se publican poco.

Otra posible solución es que no se considere un resultado como robusto hasta que pueda haber sido reproducido al menos por un equipo independiente con lo que la probabilidad de 2 falsos positivos sería menor -> 0.05 x 0.05 = 0.25% o 2.5 entre 1.000.

2 17
#27 --432051--

#25 La homeopatia la fomenta una farmaceutica privada.

Hay vida mas alla del neoliberalismo. Los neoliberales no inventaron el dinero, ni la tecnologia, ni la justicia, ni la libertad, ni la cultura... su contribucion ha sido diseñar un sistema en el que todas esas cosas colaboren para jodernos a todos vivos.

0 7
#28 fpove

Su opinion no es significativa.

0 7
#29 kain6382

@#*! Ahora que acabo de aprobar estadística!

0 6
#30 Gilbebo

Interesante charla sobre el impacto crítico en medicina de la no publicación de resultados negativos (con p-values no significativos).

www.ted.com/talks/ben_goldacre_what_doctors_don_t_know_about_the_drugs

3 22
#31 fantomax

#12 Yo soy más de estadística bayesiana. De hecho venía hablando de ello en el viaje en coche hace un rato corto.
#8 Gracias, siempre atento.

3 37
#32 mando

#9 existe un artículo muy divertido que tiene por título: " un gráfico vale más que mil valores p" aunque lamentablemente no lo encuentro desde el móvil. Luego está la réplica: " ¿A cuántos baños p equivale exactamente un gráfico?" Y así se crea un rico debate.
Aunque para lo que nos atañe, si tienes curiosidad por el tema te recomiendo cualquier artículo que tenga como referencia "biplot". Aunque la familia de técnicas es muy extensa, podrás encontrar cómo un HJ-biplot te soluciona ingentes cantidades de problemas por comparación gráfica en un plano. Por un lado están las variables: edad, peso, talla, color, tamaño, sexo y un largo etc. Las variables pueden estar codificadas como quieras: unas dicotómicas, otras escala numérica, otras por grupos. Da igual que se junten peras con manzanas, si están medidas con las mismas variables, funciona. Por otra parte están los sujetos que tienen diferentes medidas de las variables tomadas, rojo, 33, 1, 0'77... Para el sujeto 1, para el 2 azul, 84, 0, -6... Y así con todos los sujetos que pueden ser miles, millones o lo que sea. Después se ponen en una misma gráfica todos esos datos. Y se pueden hacer agrupaciones, comparaciones, manova, probabilidades y un montón de cosas más.

1 19
#33 Vicent_Sanchis

#1 Es la obsesión de cualquier revista/revisor, tienen que haber p-valores. Recuerdo que una vez un estadístico que trabajaba en investigación decía que en una major revision (hecha por un revisor que no era estadístico) le exigieron que hiciera ciertos contrastes de hipótesis porque querían ver los p-valores y el aseguraba que no tenía ningún tipo de sentido lo que le pedían.

Por cierto, en tu caso se debe al número de registros.

1 12
#34 Vicent_Sanchis

#23 Ese es un ejemplo de "clínicamente significativo"

0 9
#35 pontew74 *

#4 No creo que tenga nada que ver con la computación, por ejemplo, un seis sigma no es útil para una encuesta robótica aleatorizada para la intención de voto sobre una muestra de 1000 personas (lo que llaman pomposamente barómetro de opinión) y, sin embargo, está muy bien para hallar algo absolutamente inesperado (bosón de Higgs). El problema radica en que muchos investigadores prefieren obviar las limitaciones de un contraste para obtener resultados. Me explico:

Como sabemos, el contraste saca conclusiones del conjunto real (población) a partir de un subconjunto minúsculo de sus datos (muestra), por lo que aunque seamos muy cuidadosos en el muestro (nada de errores sistemáticos ni ilegítimos), siempre tendremos errores aleatorios que eliminaremos usando medidas estadísticas, las cuales impondrán un error de variabilidad mínimo (cota cramer rao). Así que aunque elijamos bien ese estadístico (insesgado, eficiente, consistente, blablablá) y un modelo correcto para nuestro experimento (los modelos no paramétricos aportan en general menos información) debemos construir bien la hipótesis a refutar para reducir el error tipo I (no rechazarla siendo cierta) porque sólo tendremos información sobre el contraste si rechazamos la hipótesis nula. Y aquí aparecen las tentaciones (sesgo) de los investigadores, más proclives a rechazar con el nivel de significación que hayan elegido (0.01 o 0.000001) aún estando el dato en la frontera, sin interpretarlo, sin explicar tamaños muestrales, variabilidades y obviando medidores del riesgo como el tamaño del efecto.

En resumen creo que el problema radica más en las ganas de obtener resultados/financiación que en el desconocimiento de estadística inferencial (inductiva) básica:
"No rechazar" no es "aceptar" la hipótesis nula, NO RECHAZAR NO APORTA INFORMACIÓN (o aporta muy poca), tu investigación se va a la mierda.
" Rechazar" sí aporta resultados a la investigación, RECHAZAR PERMITE ACEPTAR la hipótesis complementaria. Investigación productiva.

2 20
#36 Gilbebo

#32 ¿Éste? faculty.washington.edu/gloftus/Research/Publications/Manuscript.pdf/Lo

0 11
#37 mando *

#36 sí, esa es la réplica, gracias. El artículo es de 1993, este debate como mínimo viene desde entonces.

0 10

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

más visitadas

Un bastón antifascista detiene a Vox en el centro de Donostia

Mi padre se ha quedado en el coche hoy mientras lo lavaba y he aprovechado para hacerle una intro Almodovariana

Albares convertido en Carlos Baute: el hilarante resumen de Miguel Maldonado sobre la lección del ministro a Israel con la embajada en Jerusalén

Aquí tenéis a los nazis de desokupa en Soraluze con el rabo entre las piernas: Bajar, no bajan

Esto es precioso

más votadas

El Supremo tiene congelada desde abril la sentencia por la caja b del PP para no interferir en las sucesivas elecciones

Alumnos de la Complutense pidieron expulsar como profesor al juez Peinado, el instructor del 'caso Begoña Gómez'

La periodista Almudena Ariza es obligada a cortar su conexión en directo mientras grababa en Jerusalén: "Os muestro una mínima parte de cómo vivimos"

Un alcalde del PP de Jaén llama “inútiles” a los niños por pedir aire acondicionado en los colegios

La ONU incluye al Ejército de Israel en su 'lista negra' de entidades dañinas contra la infancia

suscripciones por RSS

Grandes expertos en el uso de la estadística proclaman que 0,05 no es el filtro adecuado