La precisión diagnóstica de ChatGPT es comparable a la del «Dr. Google

La precisión diagnóstica de ChatGPT es comparable a la del «Dr. Google

Crédito: Pixabay


Según un nuevo estudio, ChatGPT es mediocre en el diagnóstico de condiciones médicas, con una tasa de precisión de sólo el 49%. Los investigadores subrayan que sus hallazgos demuestran que la IA no debe ser la única fuente de información médica, subrayando la necesidad de mantener el elemento humano en la asistencia sanitaria.

La facilidad de acceso a la tecnología en línea ha llevado a algunas personas a no acudir a un profesional médico y a buscar sus síntomas en Google. Aunque ser proactivo sobre la propia salud es beneficioso, el «Dr. Google» no es muy preciso. Un estudio australiano realizado en 2020 en el que se examinaron 36 buscadores de síntomas internacionales basados en móviles y en la web descubrió que los diagnósticos correctos aparecían en primer lugar sólo el 36% de las veces.

Avances en la IA y su precisión diagnóstica


No cabe duda de que la IA ha avanzado desde 2020. Por ejemplo, ChatGPT de OpenAI ha hecho progresos significativos e incluso puede aprobar el examen de licencia médica de Estados Unidos. Sin embargo, esto plantea la cuestión de si es más exacta que el «Dr. Google» en términos de precisión diagnóstica. Investigadores de la Western University de Canadá se propusieron resolver esta cuestión en un nuevo estudio.

Utilizando ChatGPT 3.5, un gran modelo lingüístico entrenado en un vasto conjunto de datos de más de 400.000 millones de palabras procedentes de diversas fuentes como libros, artículos y sitios web, los investigadores realizaron un análisis cualitativo de la información médica proporcionada por el chatbot. Evaluaron sus respuestas a Medscape Case Challenges.

Los Medscape Case Challenges son intrincados escenarios clínicos diseñados para poner a prueba los conocimientos y la capacidad de diagnóstico de un profesional médico. Los participantes deben diagnosticar un caso o seleccionar un tratamiento adecuado entre cuatro opciones de elección múltiple.

Los investigadores seleccionaron estos retos porque son de código abierto y están disponibles gratuitamente. Para evitar que ChatGPT tuviera conocimiento previo de los casos, los investigadores incluyeron solo aquellos publicados después del corte de entrenamiento del modelo en agosto de 2021.

Diversos temas médicos y exclusiones


Se revisó un total de 150 casos de Medscape. Con cuatro respuestas posibles por caso, había 600 respuestas potenciales, pero sólo una correcta para cada caso. Los casos abarcaban una gran variedad de problemas médicos, con títulos como «La cerveza y la aspirina empeoran los problemas nasales de un asmático de 35 años», «Gastro Case Challenge: Un hombre de 33 años que no puede tragar su propia saliva», “Una mujer de 27 años con dolor de cabeza constante demasiado cansada para salir de fiesta”, »Caso pediátrico: Un niño de 7 años cojo y obeso que se cayó en la calle» y “Un contable aficionado al aeróbic con hipo e incoordinación”. Los investigadores excluyeron los casos que incluían elementos visuales, como imágenes clínicas, fotografías médicas y gráficos.

Ejemplo de mensaje estandarizado enviado a ChatGPT
Hadi et al.


Para garantizar una entrada coherente, los investigadores convirtieron cada caso de Medscape en una pregunta estandarizada con una respuesta esperada específica. Al menos dos médicos en formación independientes, que no conocían las evaluaciones de los demás, revisaron las respuestas de ChatGPT en cuanto a precisión diagnóstica, carga cognitiva y calidad de la información.

ChatGPT respondió correctamente en el 49% de los 150 casos analizados, con una precisión global del 74%, lo que refleja su capacidad para identificar y rechazar opciones incorrectas. Esta elevada precisión se debe a su capacidad para descartar respuestas erróneas, pero demuestra que necesita una mayor precisión y sensibilidad.

Precisión y calidad de las respuestas de ChatGPT


ChatGPT tuvo falsos positivos y falsos negativos en el 13% de los casos. Más de la mitad (52%) de las respuestas eran completas y pertinentes, mientras que el 43% eran incompletas pero pertinentes. Las respuestas tenían una carga cognitiva de baja a moderada, lo que las hacía bastante fáciles de entender, aunque esto podría dar lugar a conceptos erróneos si se utilizaran para la enseñanza de la medicina.

El modelo tuvo dificultades para distinguir entre enfermedades sutilmente diferentes y en ocasiones produjo información incorrecta o inverosímil, lo que pone de relieve la necesidad de la experiencia humana en el proceso de diagnóstico.

The researchers say that AI should be used as a tool to enhance, not replace, medicine’s human element
Depositphotos

ChatGPT 3.5 y el diagnóstico diferencial


Los investigadores señalan que ChatGPT 3.5 es sólo un modelo de IA y puede no representar a otros, por lo que se esperan mejoras en futuras versiones. El estudio se centró en casos de diagnóstico diferencial, en los que es crucial distinguir entre síntomas similares.

Futuras investigaciones deberían evaluar varios modelos de IA en distintos tipos de casos. A pesar de ello, el estudio ofrece valiosas perspectivas.

«La combinación de alta relevancia y precisión relativamente baja sugiere que ChatGPT no debería utilizarse como asesoramiento médico, ya que puede proporcionar información importante pero engañosa», afirman los investigadores. «Aunque ChatGPT ofrece sistemáticamente la misma información a distintos usuarios, mostrando una buena fiabilidad entre evaluadores, su baja precisión diagnóstica pone de manifiesto sus limitaciones a la hora de proporcionar información médica precisa».


Read the original article on: New Atlas

Read more: ChatGPT’s Humor Challenges Professional Writers

    Share this post