Un grupo de investigadores científicos del Centro Médico Beth Israel Deaconess compararon las capacidades de razonamiento de un modelo de lenguaje grande (LLM) directamente con el desempeño humano utilizando estándares desarrollados para evaluar a los médicos. Los resultados arrojaron pocas dudas: ChatGPT-4 superó a los residentes de medicina interna y a los médicos tratantes de dos centros médicos académicos en el procesamiento de datos médicos y la demostración de razonamiento clínico. Al contrario de lo que pueda parecer,es una buena noticia
|
etiquetas: ia , chatgpt4 , grupos de médicos , procesamiento y razonamiento clínico
Pero una IA o una máquina ella sola, sin la supervisión de un médico humano, NO GRACIAS.
Hay un error de traducción en el artículo meneado.
Y me parece que es error humano, ya que ese error no es el típico que cometería una máquina.
He buscado artículos en inglés y dice:
"a median score of 10 out of 10"
Eso significa "una mediana de puntuación de 10 sobre 10". (o bien "puntuación mediana")
El artículo dice "media", que es una traducción incorrecta.
Efectivamente, una "media" de 10 sobre 10 solo se puede obtener con todo 10, lo que implicaría ningún fallo.
Sin embargo, puedes tener una mediana de 10 teniendo fallos...
Ejemplo:
GPT-4: [6, 6, 10, 10, 10]
μ = 42/5 = 8.4; Mediana: 10. Fallos: 8
Médico1: [9, 9, 9, 10, 10]
μ = 47/5 = 9.4; Mediana: 9. Fallos: 3
Residente2: [7, 7, 7, 9, 10]
μ = 8; Mediana: 7; Fallos: 10.
Media de fallos humanos: 13/2 = 6.5 por cada grupo de 5 pruebas.
Media de fallos GPT-4: 8
La máquina tiene más fallos, pero mejor puntuación mediana.
Nota1: tener una mediana mejor suele indicar que si tomas un examen al azar de cada uno, es más probable que el que tiene mejor mediana supere al otro.
No sé si lo de usar la mediana es algo así como el procedimiento estándar r-IDEA para evaluar... o bien si es algo un poco arbitrario que han hecho a propósito en ese estudio para que la noticia resulte más impactante, más sensacionalista.
Nota2: otra posibilidad es que la IA tenga "más errores individuales de razonamiento".
Los ejercicios NO son solo dar un diagnóstico, en plan "el paciente tiene cáncer de colon", sino además de eso dar un razonamiento. Ejemplo: "El análisis de sangre indica alto nivel de ««bla-bla»» , lo que indica una alta probabilidad de cáncer de colon o de hígado. También el análisis de heces indica presencia de «bla-bla-bla» que indica alta probabilidad de cáncer de colon o de próstata"
Es posible que GPT haya hecho 2 ó 3 razonamientos incorrectos en cada ejercicio fallido... y que los humanos solo uno en cada ejercicio, de forma que el total de razonamientos incorrectos de GPT sea mayor a pesar de tener mejor nota.
Desconozco si el sistema de puntuación admite puntuar como correcto un ejercicio que de el diagnóstico acertado usando razonamientos incorrectos. Y en ese caso podría tener una puntuación de 10 con razonamientos incorrectos, solo por haber "acertado" los diagnosticos.
Cc: #28 #0
Por lo menos mejor que los españoles, y más rápido.
O sea, que si puedo, prefiero médico humano + IA.
Si te dicen que solo ia en medicina y que te suman 100 euros al mes a tu renta universal, lo aceptarías?
Un poco como una amante de la literatura que me decía que ChatGPT escribía cosas muy inocentonas y nunca podría ser un gran literato. Ya, sí, eso el ChatGPT 3.5 de 2023.
Un chatgpt puede servir para que medicos inutiles pasen mas desapercibidos diciendo a todo que si.
Las segundas opiniiones deberian ser a ciegas sin mirar el historial o el dignostico del medico anterior, para ver si la conclusion es la misma sin ver la anterior.
Si a esto le suman la falta de tiempo para dedicar al paciente, coctel perfecto y no descartable que con ChatGPT se pida reducir aun mas el tiempo en consulta.
Un medico que conozco, por otro lado competentes y muy dedicado al paciente,deberia tener ChatGPt para redactar los informes, porque con los dos deditos se eterniza un poco.
#2 La automatizacion como los cajeros, puede servir para dejar mas tiempo a los profesionales para atender al cliente/usuario o para reducir costes y empeorar el servicio, porque la automatizacion puede resolver muchos problemas, pero no el 100% y las maquinas pueden hacer tareas concretas mejor incluso que profesionales, pero todavia no son tan versalites como un humano.
No sé en el resto del mundo desarrollado, pero en España somos unos cutres y se busca lo barato a toda costa y la calidad es muy dificil que sea recompensada.
old.meneame.net/story/la-ia-de-los-vagos
#21 Muchas tecnologias no eliminan al humano del todo sino que permiten que puede hacer mas que antes.
una IA podria hacer la entrevista, porque a veces a los pacientes les cuesta explicarse. Le puede dar el resultado de la entrevista con lo relevante. Incluso podria avanzar un diagnostico o varios.
Esta primera fase me parece bastante inocua y puede ser una parte que puede ahorrar mucho tiempo al medico.
#23 El problema es que el ahorro se la quedan empresas. Que es logico si han invertido. Como se pueder repartir el ahorro en tiempo y dinero? Tal vez haya que hacer cooperativas de IA que nos solucionen cosas.
Tal vez un sindicato de pacientes puede usarlas para seleccionar medicos o avanzar diagnosticos o contrastar los resultados medicos.
#65 deeplg traduce erroneamente aunque da la alternativa que dices que es correcta.
www.deepl.com/translator#en/es/"a median score of 10 out of 10"
Pero sin conocer los números, confío más, a priori, en médico + IA.
Gracias por mostrarme que las máquinas traducen "median" como "mediana".
No me lo imaginaba, la verdad, ya que no significa eso y he comprobado en diccionarios que el significado que aparece es "mediana"... aunque un "diccionario" (WordReference) en último lugar (quinto o sexto) dice que a veces se usa con el significado de "media".
Probé en ChatGPT y me lo tradujo como "puntuación media de 10 sobre 10". Luego le dije que cuál es el significado de "median" y me dijo que es la mediana... Entonces le pregunté por qué en la primera respuesta tradujo "median" como "media" ... Y me contestó que tengo razón, que debería haberlo traducido como "puntuación mediana de 10 sobre 10".
Cc: #65 #28
Si actualmente, supongamos que te preocupa un lunar con mala pinta, tendrás que esperar unos 3-5 días para que te den cita en el médico de cabecera, y que luego tras estar esperando una hora en sala de espera, este te atienda y te derive al dermatólogo en 3 meses, quizás 6 meses o más en algunos casos.
En el caso de la IA en el mismo momento que te preocupe podrías tener diagnóstico, y con la seguridad de que no le vas a pillar cansada, estresada, olvidadiza, etc (como le puede pasar a cualquier profesional humano).
La necesidad de implementar las IAs en el sistema de salud cada año se verá más urgente.
No olvidemos que la IA se alimenta del conocimiento generado por humanos. Sin ellos, no es nada. Quedarse solo con la IA paralizaría el avance de la ciencia medica y convertiría una enfermedad hoy incurable en permanentemente incurable.
Como herramienta de apoyo vale, pero como sustituto como que no.
Médico: espera… (le toma el pulso, le da un golpecito en la rodilla, consulta apuntes) ¡Es cierto!
Ese tipo de basura subhumana funciona así.
Y cuidado, no digo que no falle, lo que digo es que cada vez falla menos. GPT-4 falla mucho menos que GPT-3 y a la vez falla mucho más de lo que fallará GPT-5, en eso se basa el progreso técnico científico, en lugar de decir "esto falla aquí y por lo tanto es un 0", en intentar hacer cosas cada vez mejores, en el caso de las IAs hacerlas cada vez más inteligentes, por eso necesitamos métodos de evaluación objetivos y comprobables no opiniones personales como la tuya o como la mía que aunque valiosas pueden estar sesgadas.
Sin embargo, no todo fue perfecto para la IA. En el estudio se encontró que el chatbot también estaba “simplemente equivocado”: tenía más casos de razonamiento incorrecto en sus respuestas, significativamente más a menudo que los residentes, encontraron los investigadores.
Dicho de otra forma, el hallazgo subraya la noción de que la IA probablemente será más útil, al menos en el corto plazo, como herramienta para aumentar, no reemplazar, el proceso de razonamiento humano.
No, no te va a sustituir. A veces va a acertar cojonudamente, pero no lo dejes en sus manos, necesita de un supervisor.
Programando ha sido genial pasarle un código de 100 líneas para que me haga un resumen e hincarle el diente, y pedirle ayuda para modificarlo o para ver que está mal. Pero como lo dejes solo en sus manos y no sepas qué hacer, no te va a servir de nada.
En esta línea y en respuesta a #35, si la negligencia la comete una IA tiene que pagar quien debiera haber puesto mecanismos de supervisión.
Repetir como un loro no es conocimiento, aunque se hagan pequeñas variaciones sobre lo repetido.
Quien tiene un "grado de conocimiento" mayor, tú o la Wikipedia?
Es obvio que no es una respuesta a una pregunta directa, pero ahí está de todos modos.
Eso no es una "vivencia subjetiva"
Si, chatGPT.
Simplemente fué parte de su argumentación de la respuesta. Y como eso mil. No tiene ningún problema de decir una cosa y la contraria en la misma frase.
Tú imagen demuestra que en realidad no "sabe" lo que dice. Es un excelente modelo de lenguaje con una buena base de datos de internet.
Podrían por lo menos aplicarle un motor de inferencia lógica que existe desde hace 50 años para que no diga estupideces tan a menudo.
Si has pensado una historia y has pedido a ChatGPT un brainstorming de ideas a partir del cual has ido refinando, ¿por qué no iba a tener "alma"?
Creo que el error es, de nuevo, considerar que el humano está a un lado y la IA al otro.
El problema es que a pesar de eso en otros contextos no hace eso bien. Porque no "sabe" nada.
Es un modelo de lenguaje
¿cómo que al contrario de lo que pueda parecer?!
- Pide pruebas
- Analiza los resultados
- Genera un tratamiento.
Con el tiempo...
- Más pruebas.
- Más resultados
- Continuar/cambiar tratamiento.
1+1... 7
Lo malo de todo esto es que mucha gente se queda en los titulares y acaba teniendo una perspectiva del tema que no coincide con la realidad.
Con este tema y casi que con todos, los medios de información se han convertido en medios de exageración, todo se amplifica en una dirección u otra para poder captar la nula capacidad de atención de su audiencia.
No queremos informarnos, queremos "sentir algo"
La IA sería la que diría, a ver el pulso = no hay pulso... respira: no se sabe = no se puede derminar si esta vivo o no, temperatura 35 = hipotermia. Resultado:
Si una persona no tiene pulso, no se puede determinar si está respirando y su temperatura corporal es de 35ºC, es crucial actuar rápidamente:
1. Llamar a los servicios de emergencia: Marca el número de emergencia de tu país para solicitar ayuda médica inmediata.
2. Comenzar la RCP (Reanimación Cardio Pulmonar): Si estás capacitado para hacerlo, inicia la RCP, que incluye compresiones torácicas y ventilaciones. Si no estás capacitado, sigue las instrucciones del operador de emergencias telefónicas.
3. Abrigar a la persona: Cubre a la persona con mantas u otro material para mantener su temperatura corporal.
4. Permanece calmado y sigue las instrucciones del operador de emergencias hasta que llegue la ayuda médica.
Es vital actuar con rapidez y precisión en situaciones de emergencia médica como esta.
Yo desde que conseguí que me asegurase que el Celta había ganado dos copas del Rey dejé de perder el tiempo con ese tamagochi del siglo XXI.