Un hecho poco apreciado acerca de los grandes modelos lingüísticos (LLM) es que producen respuestas “en vivo” a las indicaciones. Se les da una indicación y comienzan a hablar en respuesta, y hablan hasta que terminan. El resultado es como hacerle una pregunta a una persona y recibir un monólogo en el que mejora su respuesta oración por oración.
Esto explica varias de las formas en que los modelos de lenguaje grandes pueden ser tan frustrantes. El modelo a veces se contradice incluso dentro de un párrafo, dice algo y luego inmediatamente continúa con exactamente lo contrario porque solo está «razonando en voz alta» y a veces ajusta su impresión sobre la marcha. Como resultado, las IA necesitan mucha ayuda para realizar cualquier razonamiento complejo.
Una forma conocida de resolver esto se llama «incitación en cadena de pensamiento», donde se le pide al modelo de lenguaje grande que «muestre su trabajo» de manera efectiva «pensando» en voz alta sobre el problema y dando una respuesta solo después de haber expuesto todo su razonamiento, paso a paso.
La estimulación por cadena de pensamientos hace que los modelos lingüísticos se comporten de forma mucho más inteligente, lo que no es sorprendente. Compare cómo respondería a una pregunta si alguien le pone un micrófono en la cara y le exige que responda de inmediato con cómo respondería si tuviera tiempo de redactar un borrador, revisarlo y luego presionar «publicar».
El poder de pensar y luego responder
El último modelo de OpenAI, o1 (apodado Strawberry), es la primera versión importante de LLM con este enfoque de “pensar y luego responder” incorporado.
Como era de esperar, la empresa informa que el método hace que el modelo sea mucho más inteligente. En una publicación de blog, OpenAI dijo que o1 «se desempeña de manera similar a los estudiantes de doctorado en tareas de referencia desafiantes en física, química y biología. También descubrimos que se destaca en matemáticas y codificación. En un examen de clasificación para la Olimpiada Internacional de Matemáticas (IMO), GPT-4o resolvió correctamente solo el 13 por ciento de los problemas, mientras que el modelo de razonamiento obtuvo un puntaje del 83 por ciento».
Esta importante mejora en la capacidad de pensamiento del modelo también intensifica algunas de las peligrosas capacidades que los principales investigadores de IA llevan tiempo buscando. Antes de su lanzamiento, OpenAI prueba sus modelos para comprobar su capacidad con armas químicas, biológicas, radiológicas y nucleares, las capacidades que más buscarían los grupos terroristas que no tienen la experiencia necesaria para construirlas con la tecnología actual.
Como escribió recientemente mi colega Sigal Samuel, OpenAI o1 es el primer modelo que alcanza un nivel de riesgo “medio” en esta categoría. Eso significa que, si bien no es lo suficientemente capaz de guiar, por ejemplo, a un principiante absoluto en el desarrollo de un patógeno mortal, los evaluadores descubrieron que “puede ayudar a los expertos con la planificación operativa de la reproducción de una amenaza biológica conocida”.
Estas capacidades son uno de los ejemplos más claros de la IA como tecnología de doble uso: un modelo más inteligente se vuelve más capaz en una amplia gama de usos, tanto benignos como malignos.
Si la inteligencia artificial del futuro llega a ser lo suficientemente buena como para enseñar a cualquier estudiante de biología de la universidad los pasos necesarios para recrear, por ejemplo, la viruela en el laboratorio, esto podría tener consecuencias catastróficas. Al mismo tiempo, las IA que pueden enseñar a las personas a realizar proyectos complejos de biología harán un enorme bien al acelerar la investigación que salva vidas. La inteligencia en sí misma, artificial o de otro tipo, es el arma de doble filo.
El objetivo de trabajar en seguridad de la IA para evaluar estos riesgos es descubrir cómo mitigarlos con políticas para que podamos obtener lo bueno sin lo malo.
Cómo (y cómo no) evaluar una IA
Cada vez que OpenAI o uno de sus competidores (Meta, Google, Anthropic) lanza un nuevo modelo, repetimos las mismas conversaciones. Algunas personas encuentran una pregunta en la que la IA se desempeña de manera impresionante y circulan capturas de pantalla que dejan atónitos a los usuarios. Otros encuentran una pregunta en la que la IA falla (por ejemplo, «¿cuántas ‘r’ tiene ‘fresa’?» o «¿cómo se cruza un río con una cabra?») y las comparten como prueba de que la IA sigue siendo más publicidad que producto.
Parte de este patrón se debe a la falta de buenas medidas científicas de la capacidad de un sistema de IA. Antes teníamos parámetros de referencia que pretendían describir el lenguaje y las capacidades de razonamiento de la IA, pero el rápido ritmo de mejora de la IA los ha superado y, a menudo, los parámetros de referencia están «saturados». Esto significa que la IA se desempeña tan bien como un humano en estas pruebas de referencia y, como resultado, ya no son útiles para medir mejoras adicionales en las habilidades.
Recomiendo encarecidamente que pruebes las IA por ti mismo para tener una idea de qué tan bien funcionan. (OpenAI o1 solo está disponible para suscriptores pagos por ahora, e incluso entonces tiene una frecuencia muy limitada, pero hay nuevos lanzamientos de modelos superiores todo el tiempo). Todavía es demasiado fácil caer en la trampa de intentar demostrar que una nueva versión es «impresionante» o «poco impresionante» al buscar selectivamente tareas en las que se destacan o en las que se avergüenzan, en lugar de mirar el panorama general.
El panorama general es que, en casi todas las tareas que hemos inventado para ellos, los sistemas de IA siguen mejorando rápidamente, pero el increíble desempeño en casi todas las pruebas que podemos diseñar aún no se ha traducido en muchas aplicaciones económicas. Las empresas todavía tienen dificultades para identificar cómo ganar dinero con los LLM. Un gran obstáculo es la falta de fiabilidad inherente de los modelos y, en principio, un enfoque como el de OpenAI o1 (en el que el modelo tiene más posibilidades de pensar antes de responder) podría ser una forma de mejorar drásticamente la fiabilidad sin el gasto de entrenar un modelo mucho más grande.
A veces, las grandes cosas pueden surgir de pequeñas mejoras.
Lo más probable es que no haya una solución milagrosa que solucione de repente las limitaciones de larga data de los grandes modelos lingüísticos. En cambio, sospecho que se irán erosionando gradualmente a lo largo de una serie de versiones, y lo impensable se volverá alcanzable y luego mundano en el transcurso de unos pocos años, que es precisamente cómo ha procedido la IA hasta ahora.
Pero, como demuestra ChatGPT (que en sí mismo fue solo una mejora moderada con respecto a los chatbots anteriores de OpenAI, pero que llegó a cientos de millones de personas de la noche a la mañana), el hecho de que el progreso técnico sea gradual no significa que el impacto social sea gradual. A veces, el esfuerzo de mejorar varias partes del funcionamiento de un LLM (o mejorar su interfaz de usuario para que más personas lo prueben, como el propio chatbot) nos hace cruzar el umbral de «truco de fiesta» a «herramienta esencial».
Y aunque OpenAI ha sido criticado recientemente por ignorar las implicaciones de seguridad de su trabajo y silenciar a los denunciantes, su versión o1 parece tomar en serio las implicaciones políticas, incluida la colaboración con organizaciones externas para verificar lo que su modelo puede hacer. Estoy agradecido de que estén haciendo posible ese trabajo y tengo la sensación de que, a medida que los modelos sigan mejorando, necesitaremos ese trabajo concienzudo más que nunca.