ChatGPT aún no es tan efectivo para diagnosticar enfermedades humanas
Un estudio de la Universidad de Western revela que ChatGPT no es fiable para diagnosticar enfermedades humanas, acertando solo el 49% de las veces
Un equipo de investigadores médicos de la Escuela de Medicina y Odontología Schulich de la Universidad de Western, en Canadá, ha llevado a cabo un estudio que pone en duda la capacidad del modelo de lenguaje ChatGPT para diagnosticar enfermedades humanas con precisión. Este estudio, publicado en la revista de acceso abierto PLOS ONE, evidencia las limitaciones del modelo a pesar de su entrenamiento con vastas cantidades de datos.
El equipo de investigación entrenó a ChatGPT 3.5 utilizando 150 casos de estudio extraídos de Medscape, una plataforma en línea ampliamente utilizada por profesionales médicos para fines educativos. Cada caso de estudio incluía información detallada sobre el historial del paciente, resultados de laboratorio y hallazgos de exámenes físicos, junto con un diagnóstico preciso conocido. Con estos datos, los investigadores pidieron a ChatGPT que proporcionara un diagnóstico y un plan de tratamiento.
Los resultados fueron reveladores: ChatGPT solo logró acertar el diagnóstico en el 49% de los casos. Sin embargo, mostró una habilidad notable para explicar el proceso que condujo a su diagnóstico, incluyendo citas y referencias, lo cual es crucial en el ámbito médico. Este aspecto fue valorado positivamente por los investigadores, quienes sugirieron que esta característica podría ser útil para la educación de estudiantes de medicina, al ofrecer un modelo de razonamiento diagnóstico estructurado.
El estudio también destacó que, aunque ChatGPT no fue preciso en sus diagnósticos, demostró ser bastante competente en la eliminación de posibles enfermedades. Esto sugiere que, mientras que el modelo aún no está listo para su uso en entornos de diagnóstico clínico, podría tener un papel auxiliar en la enseñanza médica y en la generación de hipótesis diagnósticas preliminares.
Investigaciones anteriores y evidencia anecdótica ya habían señalado que los modelos de lenguaje como ChatGPT pueden producir resultados impresionantes en tareas creativas o literarias, como la redacción de poemas o ensayos. No obstante, estos modelos también pueden generar respuestas incorrectas o extrañas, especialmente en áreas que requieren precisión y conocimiento especializado, como la medicina.
El equipo de la Universidad de Western enfatizó la necesidad de precaución al utilizar herramientas de inteligencia artificial para asesoramiento médico. Los investigadores sugieren que, aunque los avances en la tecnología de modelos de lenguaje son prometedores, aún falta mucho para que estas herramientas puedan reemplazar la experiencia y el juicio clínico de los profesionales de la salud.
La conclusión de este estudio subraya la importancia de seguir investigando y desarrollando la tecnología de inteligencia artificial en medicina, con el objetivo de mejorar su precisión y fiabilidad. Mientras tanto, es crucial que tanto los profesionales médicos como el público en general sean conscientes de las limitaciones actuales de estas herramientas y eviten confiar plenamente en ellas para decisiones de salud críticas.
Este estudio contribuye al creciente cuerpo de investigación que busca integrar la inteligencia artificial en la práctica médica, al mismo tiempo que resalta la necesidad de un enfoque equilibrado y cauteloso. Los investigadores de la Universidad de Western han abierto un diálogo crucial sobre las capacidades y limitaciones de los modelos de lenguaje en el ámbito de la salud, un campo donde la precisión y la exactitud son vitales.
En resumen, mientras que ChatGPT y otros modelos de lenguaje muestran un gran potencial, su aplicación en el diagnóstico médico debe ser abordada con cautela. La tecnología aún no está lista para sustituir la evaluación médica tradicional, pero con el tiempo y la investigación continua, podría convertirse en una herramienta valiosa para complementar la práctica médica y mejorar la educación en salud.
Sigue leyendo: