Lo que ChatGPT Health realmente puede decirle y lo que no

¿Con qué frecuencia le has pedido consejos de salud a ChatGPT? Tal vez por una erupción misteriosa o esa tensión en la pantorrilla derecha después de una carrera larga. Yo sí, en ambos aspectos. ChatGPT incluso diagnosticó correctamente esa misteriosa erupción que desarrollé cuando experimenté por primera vez el invierno de Boston como urticaria por frío, una semana antes de que mi médico lo confirmara.

Según OpenAI, más de 230 millones de personas hacen preguntas relacionadas con la salud a ChatGPT cada semana. Si bien la gente ha estado conectando sus preocupaciones de salud a Internet desde sus inicios, lo que ha cambiado ahora es la interfaz: en lugar de desplazarse por interminables resultados de búsqueda, ahora puede tener lo que parece una conversación personal.

La semana pasada, dos de las mayores empresas de IA apostaron por esa realidad. OpenAI lanzó ChatGPT Health, un espacio dedicado dentro de su interfaz de chat más grande donde los usuarios pueden conectar sus registros médicos, datos de Apple Health y estadísticas de otras aplicaciones de fitness para obtener respuestas personalizadas. (Actualmente está disponible para un pequeño grupo de usuarios, pero la compañía dice que eventualmente estará abierto para todos los usuarios). Apenas unos días después, Anthropic anunció una herramienta similar para el consumidor para Claude, junto con una serie de otras dirigidas a investigadores y profesionales de la salud.

Ambas herramientas de IA orientadas al consumidor vienen con descargos de responsabilidad (no destinados al diagnóstico, consulte a un profesional) que probablemente estén elaborados por motivos de responsabilidad. Pero esas advertencias no impedirán que cientos de millones de personas ya utilicen chatbots para comprender sus síntomas.

Sin embargo, es posible que estas empresas lo hayan hecho al revés: la IA sobresale en el diagnóstico; Varios estudios muestran que es uno de los mejores casos de uso de la tecnología. Y existen ventajas y desventajas reales (en torno a la privacidad de los datos y la tendencia de la IA a complacer a las personas) que vale la pena comprender antes de conectar sus registros médicos a un chatbot.

Comencemos con aquello en lo que la IA es realmente buena: el diagnóstico.

El diagnóstico se basa en gran medida en la coincidencia de patrones, que es en parte la forma en que se entrenan los modelos de IA en primer lugar. Todo lo que tiene que hacer un modelo de IA es tomar síntomas o datos, relacionarlos con condiciones conocidas y llegar a una respuesta. Estos son patrones que los médicos han validado durante décadas: estos síntomas significan esta enfermedad, este tipo de imágenes muestra esa condición. La IA ha sido entrenada en millones de estos casos etiquetados, y se nota.

En un estudio de 2024, GPT-4, el modelo líder de OpenAI en ese momento, logró una precisión diagnóstica superior al 90 por ciento en casos clínicos complejos, como pacientes que presentan erupciones atípicas en forma de encaje. Mientras tanto, los médicos humanos que utilizaron recursos convencionales obtuvieron una puntuación de alrededor del 74 por ciento. En un estudio separado publicado este año, las mejores modelos superaron a los médicos en la identificación de afecciones raras a partir de imágenes (incluidos cánceres de piel agresivos, defectos de nacimiento y hemorragias internas) a veces por márgenes del 20 por ciento o más.

El tratamiento es donde las cosas se ponen turbias. Los médicos deben considerar el fármaco adecuado, pero también intentar determinar si el paciente realmente lo tomará. La pastilla que se toma dos veces al día podría funcionar mejor, pero ¿se acordarán de tomar ambas dosis? ¿Pueden permitírselo? ¿Tienen transporte al centro de infusión? ¿Harán seguimiento?

Estas son preguntas humanas, que dependen del contexto que no reside en los datos de entrenamiento. Y, por supuesto, un modelo de lenguaje grande en realidad no puede recetarle nada, ni tiene la memoria confiable que necesitaría en la gestión de casos a largo plazo.

«La administración a menudo no tiene respuestas correctas», dijo Adam Rodman, médico del Centro Médico Beth Israel Deaconess en Boston y profesor de la Facultad de Medicina de Harvard. «Es más difícil entrenar un modelo para hacer eso».

Pero OpenAI y Claude no son herramientas de diagnóstico de marketing. Están comercializando algo más vago: la IA como analista de salud personal. Tanto ChatGPT Health como Claude ahora te permiten conectar Apple Health, Peloton y otros rastreadores de actividad física. La promesa es que la IA puede analizar su sueño, movimiento y frecuencia cardíaca a lo largo del tiempo y descubrir tendencias significativas a partir de todos esos datos dispares.

«Está teniendo vibraciones».

— Adam Rodman, médico del Centro Médico Beth Israel Deaconess en Boston

Un problema con esto es que no hay ninguna investigación independiente publicada que demuestre que es posible. La IA podría observar que su frecuencia cardíaca en reposo aumenta o que duerme peor los domingos. Pero observar una tendencia no es lo mismo que saber lo que significa, y nadie ha validado qué tendencias, si las hay, predicen resultados de salud reales. «Hay vibraciones», dijo Rodman.

Ambas empresas han probado sus productos en puntos de referencia internos: OpenAI desarrolló HealthBench, creado con cientos de médicos, que prueba cómo los modelos explican los resultados de laboratorio, preparan a los usuarios para las citas e interpretan los datos de los dispositivos portátiles.

Pero HealthBench se basa en conversaciones sintéticas, no en interacciones reales con los pacientes. Y es solo texto, lo que significa que no prueba lo que sucede cuando cargas tus datos de Apple Health. Además, la conversación promedio es de solo 2,6 intercambios, lejos del ansioso intercambio que un usuario preocupado podría tener durante días.

Esto no significa que ChatGPT o las nuevas funciones de salud de Claude sean inútiles. Podrían ayudarle a notar tendencias en sus hábitos, de la misma manera que un diario de migrañas ayuda a las personas a detectar los desencadenantes. Pero en este momento no es ciencia validada y vale la pena conocer la diferencia.

La pregunta más importante es qué puede hacer realmente la IA con sus datos de salud y qué riesgo corre al utilizarlos.

Las conversaciones de salud se almacenan por separado, dice OpenAI, y su contenido no se utiliza para entrenar modelos, como la mayoría de las otras interacciones con chatbots. Pero ni ChatGPT Health ni las funciones de salud orientadas al consumidor de Claude están cubiertas por HIPAA, la ley que protege la información que usted comparte con médicos y aseguradoras. (OpenAI y Anthropic ofrecen software empresarial a hospitales y aseguradoras que cumple con HIPAA).

En caso de una demanda o investigación penal, las empresas tendrían que cumplir con una orden judicial. Sara Geoghegan, abogada principal del Centro de Información de Privacidad Electrónica, dijo a The Record que compartir registros médicos con ChatGPT podría efectivamente despojar a esos registros de la protección HIPAA.

En un momento en que la atención reproductiva y la atención de afirmación de género están bajo amenaza legal en varios estados, esa no es una preocupación abstracta. Si le hace preguntas a un chatbot sobre cualquiera de los dos (y conecta sus registros médicos), probablemente esté creando un rastro de datos que potencialmente podría ser citado.

Además, los modelos de IA no son almacenes neutrales de información. Tienen una tendencia documentada a decirte lo que quieres oír. Si está ansioso por un síntoma, o busca la seguridad de que no es nada grave, el modelo puede captar su tono y posiblemente ajustar su respuesta de una manera que un médico humano no está capacitado para hacerlo.

Ambas compañías dicen que han entrenado sus modelos de salud para explicar la información y señalar cuando algo justifica una visita al médico, en lugar de simplemente estar de acuerdo con los usuarios. Es más probable que los modelos más nuevos hagan preguntas de seguimiento cuando no están seguros. Pero queda por ver cómo se desempeñan en situaciones del mundo real.

Y a veces hay más en juego que un diagnóstico erróneo.

Una preimpresión publicada en diciembre probó 31 modelos líderes de IA, incluidos los de OpenAI y Anthropic, en casos médicos del mundo real y descubrió que el modelo con peor desempeño hacía recomendaciones con potencial de causar daños mortales en aproximadamente uno de cada cinco escenarios. Un estudio separado de una herramienta de apoyo a la toma de decisiones clínicas basada en OpenAI utilizada en clínicas de atención primaria de Kenia encontró que cuando la IA hacía una rara sugerencia dañina (en aproximadamente el 8 por ciento de los casos), los médicos adoptaban el mal consejo casi el 60 por ciento de las veces.

Estas no son preocupaciones teóricas. Hace dos años, un adolescente de California llamado Sam Nelson murió después de pedirle a ChatGPT que lo ayudara a consumir drogas recreativas de manera segura. Casos como este son raros y los errores de los médicos humanos son reales: decenas de miles de personas mueren cada año debido a errores médicos. Pero estas historias muestran lo que puede suceder cuando las personas confían en la IA para tomar decisiones de alto riesgo.

Sería fácil leer todo esto y concluir que nunca debes hacerle una pregunta de salud a un chatbot. Pero eso ignora por qué millones de personas ya lo hacen.

La espera promedio para una cita de atención primaria en Estados Unidos es ahora de 31 días, y en algunas ciudades, como Boston, es de más de dos meses. Cuando entras, la visita dura unos 18 minutos. Según OpenAI, siete de cada 10 conversaciones ChatGPT relacionadas con la salud ocurren fuera del horario clínico.

Los chatbots, en comparación, están disponibles las 24 horas del día, los 7 días de la semana, y «son infinitamente pacientes», dijo Rodman. Responderán a la misma pregunta de cinco maneras diferentes. Para muchas personas, eso es más de lo que reciben del sistema de atención médica.

Entonces, ¿deberías utilizar estas herramientas? No hay una respuesta única. Pero aquí hay un marco: la IA es buena para explicar cosas como resultados de laboratorio, terminología médica o qué preguntas hacerle a su médico. No está probado para encontrar tendencias significativas en sus datos de bienestar. Y no sustituye el diagnóstico de alguien que realmente pueda examinarlo.