Un nuevo estudio encontró que los diagnósticos médicos de la IA eran mejores que los de los médicos humanos, pero hay un problema

Cuando pienso en médicos heroicos, pienso en el médico del hospital al que se le presenta un paciente que sufre síntomas extraños o vagos y obtiene el diagnóstico correcto justo a tiempo. Es la base de casi todos los programas de televisión sobre procedimientos médicos, desde Casa, Maryland a La fosa. Es la mística que ha convertido a los médicos entre los profesionales más venerados de la sociedad.

Pero ¿qué pasaría si una máquina pudiera hacer esa llamada igual de bien o incluso mejor? ¿Qué deberíamos hacer al respecto aquí en el mundo real?

Esa pregunta es cada vez más urgente. Según un importante nuevo estudio publicado en Ciencialos programas avanzados de inteligencia artificial a menudo superan a los médicos humanos al diagnosticar a personas que buscan atención médica de emergencia.

La IA ya, para bien o para mal, se ha convertido en parte de la medicina moderna. Se están utilizando diferentes programas para hacer de todo, desde recopilar notas médicas hasta identificar nuevos candidatos prometedores para el desarrollo de fármacos. Los autores del Ciencia El estudio presentó sus hallazgos como evidencia sólida de que la IA también podría ser valiosa en la sala de emergencias, siempre y cuando sea completamente examinada en ensayos clínicos para usos específicos.

Para que la exageración no supere a la ciencia, los autores insistieron en decir que temían que su investigación fuera citada para justificar el reemplazo de médicos humanos con programas de software: «Me incomoda un poco cómo podrían usarse algunos de estos resultados», dijo el coautor Dr. Adam Rodman, internista general y educador médico en el Centro Médico Beth Israel Deaconess. Advirtieron contra una visión tan simplista de sus hallazgos.

«Nadie debería ver esto y decir que no necesitamos médicos», dijo Rodman en una llamada con periodistas.

Al mismo tiempo, los investigadores argumentaron que la IA había llegado al punto en que podría ser un activo genuino para los médicos en ciertas situaciones, especialmente en las salas de emergencia, donde los médicos frecuentemente tratan con información imperfecta. Pidieron ensayos clínicos que evaluaran adecuadamente la seguridad y eficacia del uso de la IA para esas tareas, sirviendo como un segundo par de ojos virtuales que podrían actuar como un chequeo para los médicos humanos, o ayudarlos cuando se encuentren con un caso que está fuera de su experiencia o conocimientos.

Dijeron que la IA claramente puede ser una fuerza positiva en la atención médica, siempre y cuando reconozcamos sus limitaciones y la usemos junto con nuestros médicos humanos, en lugar de reemplazarlos.

«Estamos siendo testigos de un cambio realmente profundo en la tecnología que remodelará la medicina», dijo Arjun Manrai, que estudia el aprendizaje automático y el modelado estadístico para la toma de decisiones médicas en la Facultad de Medicina de Harvard.

La IA superó a los médicos humanos al realizar diagnósticos de emergencia

Los investigadores evaluaron el modelo de razonamiento o1 de OpenAI, que es un programa de IA más especializado que, por ejemplo, ChatGPT. Funciona de forma más deliberada y con énfasis en la lógica interna. Ejecutaron el programa a través de varios experimentos, evaluando su precisión en casos tanto simulados como históricos que se han utilizado en la formación médica para evaluar el pensamiento crítico de los médicos, así como en casos de emergencia del mundo real del hospital Beth Israel. Luego, el estudio comparó el rendimiento del modelo o1 con médicos humanos, ChatGPT y médicos humanos que utilizan ChatGPT.

La evaluación de los casos de entrenamiento permitió a los investigadores comparar el desempeño de o1 con una muestra muy grande de datos existentes de médicos humanos que realizaron las mismas pruebas. Y en esos diferentes escenarios, la IA superó consistentemente a esos médicos y ofreció el diagnóstico correcto o un plan útil para el manejo de pacientes en la gran mayoría de los casos estudiados.

Suscríbete al boletín de Buena Medicina

Pero su precisión al evaluar datos de registros médicos electrónicos sin procesar de casos de emergencias del mundo real fue especialmente impresionante. Esto se acerca más a la confusa realidad en la que a menudo deben actuar los médicos de urgencias: están tratando con una persona que necesita urgentemente un tratamiento rápido y tienen información incompleta y sin filtrar, si es que tienen mucha información. Al revisar esos casos, el modelo o1 identificó el diagnóstico exacto o muy cercano el 67 por ciento de las veces durante la presentación inicial del paciente en el triaje (frente al 50 y 55 por ciento respectivamente de dos médicos expertos con los que se midió la IA) y el 81 por ciento de las veces una vez que el paciente estaba listo para ser admitido en el hospital (frente al 70 y el 79 por ciento de los médicos humanos).

«Podemos decir definitivamente… los modelos de razonamiento pueden cumplir con esos criterios para realizar razonamientos diagnósticos en los niveles más altos del desempeño humano», dijo Rodman a los periodistas.

Dos expertos que consulté y que no estaban afiliados al estudio (el Dr. Sanjay Basu de UC-San Francisco y Nigam Shah de Stanford) elogiaron su rigor, pero también señalaron sus limitaciones. Los casos de entrenamiento preexistentes estudiados han sido seleccionados específicamente para evaluar la precisión de los médicos, por lo que pueden exagerar qué tan bien funcionaría el modelo en el mundo real. En uno de los experimentos del estudio de caso que incluía un conjunto de diagnósticos «no se pueden pasar por alto» cuando el paciente corre riesgo de sufrir daños graves o muerte, el modelo de IA no funcionó mejor que ChatGPT o los médicos humanos.

Incluso los hallazgos de ER, que más se acercan a evaluar el desempeño del modelo o1 en condiciones reales, fueron revisiones retrospectivas de casos existentes; En realidad, no se pidió al modelo que diagnosticara o gestionara a los pacientes en tiempo real.

Por eso, como incluso el Ciencia Como argumentaron los autores del estudio, el siguiente paso no debería ser poner inmediatamente el modelo de Open AI a cargo de la clasificación de emergencia en los hospitales de todo el país. En lugar de ello, pidieron ensayos clínicos que pudieran evaluar el rendimiento del modelo (tanto en precisión como en seguridad) en condiciones del mundo real.

«Hay mucho en juego en la medicina… y tenemos formas de mitigar estos riesgos. Se llaman ensayos clínicos», dijo Rodman a los periodistas. «Lo que estos resultados respaldan es una agenda de investigación sólida y ambiciosa».

La IA podría ser valiosa para los médicos, pero los pacientes deben tener cuidado

El entusiasmo por la IA, especialmente en medicina, es alto en este momento. Mientras escuchaba a los autores discutir sus hallazgos, lo que me llamó la atención fue su propia conciencia de que su investigación podría usarse como justificación para recortar la fuerza laboral médica humana y los riesgos que eso podría terminar creando para los pacientes.

«Hay muchas de las llamadas compañías de médicos de inteligencia artificial que están tratando de dejar a los médicos fuera del circuito o tener una supervisión clínica mínima», dijo Rodman. «Como uno de los autores principales del estudio, no creo que estos resultados respalden eso».

Los autores enfatizaron que, basándose en sus resultados, imaginarían que los modelos de IA en la sala de emergencias serían supervisados por un médico real. Hacer un diagnóstico es sólo una parte del tratamiento de un paciente; también incluye elaborar un plan de tratamiento y monitorear la evolución, así como el elemento humano. «Los humanos quieren que los guíen en decisiones de vida o muerte», dijo Manrai.

Basu y Shah dijeron que apoyaban usos estrictamente definidos para la IA en urgencias basándose en la investigación colectiva hasta el momento. Podría ofrecer segundas opiniones cuando un paciente pasa a otro médico o opinar sobre situaciones específicas de alto riesgo (como un paciente que presenta una infección por sepsis o síntomas de accidente cerebrovascular) donde el tiempo es esencial. También podría reducir el papeleo para los médicos, una aplicación presentada en la temporada más reciente de La fosa. Shah señaló la autorización previa, la documentación y la programación como áreas obvias en las que la IA podría ayudar.

Al mismo tiempo, los modelos de IA no deberían implementarse en absoluto para diagnosticar y gestionar el tratamiento de forma autónoma, afirmó Basu.

Las personas también deben tener cuidado al utilizar la IA para tomar decisiones médicas. Otros estudios de diagnóstico de IA han encontrado resultados preocupantes, especialmente para modelos orientados al consumidor como ChatGPT. Un artículo publicado en Medicina de la naturaleza a principios de este año evaluó el desempeño de ChatGPT cuando se le presentaron escenarios que iban desde no urgentes hasta emergentes y encontró que el modelo subestimaba la gravedad de la condición del paciente en el 52 por ciento de los casos; los pacientes que estaban al borde del shock diabético o la insuficiencia respiratoria fueron remitidos a un seguimiento de 24 o 48 horas. El modelo no logró identificar repetidamente signos claros de ideación suicida.

Como me dijo Shah, el Ciencia El documento representa un “techo” para el uso de la IA para el diagnóstico, mientras que el Medicina de la naturaleza El papel representa un piso. Los dos estudios muestran cuán precisos debemos ser al considerar el uso de la IA para tomar decisiones clínicas: mientras que el modelo o1 más sofisticado funcionó bien en el Ciencia En un estudio que revisó casos seleccionados, ChatGPT orientado al consumidor, desarrollado por la misma compañía, Open AI, tuvo un desempeño inferior en el otro documento.

“Ambas cosas pueden ser ciertas”, me dijo Basu. «Ambos lo son».

En la llamada con los periodistas, Manrai describió tanto escenarios “verdes” (de bajo riesgo) en los que una IA podría ser realmente útil incluso para un profano como casos “rojos” (de alto riesgo) en los que siempre se debe involucrar a un profesional médico. Un uso ecológico sería, por ejemplo, preguntarle a un modelo sobre una dieta que podría ayudar a controlar su hipertensión o estiramientos que podrían aliviar una lesión reciente en la espalda. Piense en ello más como un consejo de estilo de vida que como una guía clínica estricta.

Un uso rojo, por otro lado, implicaría situaciones médicas graves con consecuencias de vida o muerte: el dolor en el pecho, por dar uno de muchos ejemplos posibles, es motivo para acudir directamente al médico o al hospital, no para consultar ChatGPT.

Estamos cada vez más cerca de desbloquear el increíble potencial de estos poderosos programas para mejorar la atención médica y hacer realidad lo que alguna vez fue ciencia ficción. Pero incluso estos investigadores de vanguardia están de acuerdo en que debemos actuar con cautela y mantener informados a los verdaderos expertos, los médicos.