Un torneo trató de probar qué tan bien los expertos podrían pronosticar el progreso de la IA. Todos estaban equivocados.

Dos de las personas más inteligentes que sigo en el mundo de la IA recientemente se sentaron para verificar cómo va el campo.

Uno fue François Chollet, creador de la Biblioteca Keras ampliamente utilizada y autor del punto de referencia ARC-AGI, que prueba si AI ha alcanzado la inteligencia «general» o ampliamente humana. Chollet tiene una reputación como un oso de IA, ansioso por desinflar las predicciones más reforzadas y demasiado optimistas de hacia dónde va la tecnología. Pero en la discusión, Chollet dijo que sus plazos se han vuelto más cortos recientemente. Los investigadores habían progresado mucho en lo que él vio como los principales obstáculos para lograr la inteligencia general artificial, como la debilidad de los modelos al recordar y aplicar cosas que aprendieron antes.

El interlocutor de Chollet, Dwarkesh Patel, cuyo podcast se ha convertido en el lugar más importante para rastrear lo que los principales científicos de IA están pensando, en reacción a sus propios informes, se movió en la dirección opuesta. Si bien los humanos son excelentes para aprender continuamente o «en el trabajo», Patel se ha vuelto más pesimista de que los modelos de IA pueden ganar esta habilidad en el corto plazo.

«(Los humanos) están aprendiendo de sus fracasos. Están recogiendo pequeñas mejoras y eficiencias mientras trabajan», señaló Patel. «No parece que haya una manera fácil de colocar esta capacidad clave en estos modelos».

Todo lo que quiere decir, dos personas muy enchufadas e inteligentes que conocen el campo y cualquier otra persona pueden llegar a conclusiones perfectamente razonables pero contradictorias sobre el ritmo del progreso de la IA.

En ese caso, ¿cómo se supone que alguien como yo, que ciertamente tiene menos conocimiento que Chollet o Patel, debe descubrir quién tiene razón?

Las guerras de pronosticación, tres años en

Uno de los enfoques más prometedores que he visto para resolver, o al menos juzgar, estos desacuerdos provienen de un grupo pequeño llamado Instituto de Investigación de Previsión.

En el verano de 2022, el Instituto comenzó lo que llama el torneo de persuasión de riesgo existencial (XPT para abreviar). XPT tenía la intención de «producir pronósticos de alta calidad de los riesgos que enfrentan la humanidad durante el próximo siglo». Para hacer esto, los investigadores (incluido el psicólogo de Penn y el pionero de pronóstico, Philip Tetlock y el jefe de viernes Josh Rosenberg) encuestaron a expertos en la materia que estudian amenazas de que al menos posiblemente podrían poner en peligro la supervivencia de la humanidad (como la IA) en el verano de 2022.

Pero también preguntaron a «SuperForForCasters», un grupo de personas identificadas por Tetlock y otras que han demostrado ser inusualmente precisas para predecir eventos en el pasado. El Grupo Superforecaster no estaba compuesto por expertos en amenazas existenciales para la humanidad, sino que los generalistas de una variedad de ocupaciones con sólidos historias predictivas.

En cada riesgo, incluida la IA, hubo grandes brechas entre los expertos específicos del área y los pronosticadores generalistas. Los expertos tenían mucho más probabilidades que los generalistas de decir que el riesgo que estudian podría conducir a la extinción humana o las muertes masivas. Esta brecha persistió incluso después de que los investigadores hicieron que los dos grupos participaran en discusiones estructuradas destinadas a identificar por qué no estuvieron de acuerdo.

Los dos solo tenían vistas del mundo fundamentalmente diferentes. En el caso de la IA, los expertos en la materia pensaron que la carga de la prueba debería estar en los escépticos para mostrar por qué una especie digital hiperinteligente no ser peligroso. Los generalistas pensaron que la carga de la prueba debería estar en los expertos para explicar por qué una tecnología que ni siquiera existe aún podría matarnos a todos.

Hasta ahora, tan intratable. Afortunadamente para los observadores de nosotros, se pidió a cada grupo no solo que estimara los riesgos a largo plazo durante el próximo siglo, que no se puede confirmar en el corto plazo, sino también eventos en el futuro más cercano. Se les encargó específicamente predecir el ritmo del progreso de la IA en la ejecución corta, media y larga.

En un nuevo artículo, los autores: Tetlock, Rosenberg, Simas Kučinskas, Rebecca Ceppas de Castro, Zach Jacobs y Ezra Karger, regresan y evalúan qué tan bien les fue a los dos grupos a predecir los tres años de progreso de IA desde el verano de 2022.

En teoría, esto podría decirnos qué grupo creer. Si los expertos en IA en cuestión demostraron ser mucho mejores para predecir lo que sucedería entre 2022-2025, tal vez eso es una indicación de que tienen una mejor lectura sobre el futuro más largo de la tecnología y, por lo tanto, deberíamos darle a sus advertencias una mayor credibilidad.

Por desgracia, en palabras de Ralph Fiennes, «¡sería tan simple!» Resulta que los resultados de tres años nos dejan sin mucho más sentido de quién creer.

Tanto los expertos en IA como los SuperForForFasters subestimaron sistemáticamente el ritmo del progreso de la IA. En cuatro puntos de referencia, el rendimiento real de los modelos de vanguardia en el verano de 2025 fue mejor de lo que predijo SuperforFasters o AI Experts (aunque este último estaba más cerca). Por ejemplo, los SuperforFasters pensaron que una IA obtendría oro en la Olimpiada Matemática Internacional en 2035. Los expertos pensaron 2030. Sucedió este verano.

«En general, SuperForForCasters asignó una probabilidad promedio de solo 9.7 por ciento a los resultados observados en estos cuatro puntos de referencia de IA», concluyó el informe, «en comparación con el 24.6 por ciento de los expertos en dominio».

Eso hace que los expertos en dominio se vean mejor. Ellos pusieron levemente Las probabilidades más altas de que realmente sucediera, pero cuando crujieron los números en todas las preguntas, los autores concluyeron que no había diferencias estadísticamente significativas en la precisión agregada entre los expertos en dominio y los superforforásters. Además, no hubo correlación entre lo preciso que era alguien en proyectar el año 2025 y cuán peligrosos pensaban que eran la IA u otros riesgos. La predicción sigue siendo difícil, especialmente sobre el futuro, y especialmente sobre el futuro de la IA.

El único truco que funcionó de manera confiable fue agregar los pronósticos de todos: agrupar todas las predicciones juntas y tomar la mediana produjo pronósticos sustancialmente más precisos que cualquier individuo o grupo. Es posible que no sepamos cuáles de estos adivinos son inteligentes, pero las multitudes siguen siendo sabias.

Quizás debería haber visto venir este resultado. Ezra Karger, economista y coautor en el documento XPT inicial y este nuevo, me dijo en el lanzamiento del primer artículo en 2023 que, «En los próximos 10 años, realmente no hubo tanto desacuerdo entre grupos de personas que no estuvieron en desacuerdo sobre esas preguntas más largas». Es decir, ya sabían que las predicciones de las personas preocupadas por la IA y las personas menos preocupadas eran bastante similares.

Por lo tanto, no debería sorprendernos demasiado que un grupo no fuera dramáticamente mejor que el otro para predecir los años 2022-2025. El verdadero desacuerdo no se trataba del futuro a corto plazo de la IA, sino del peligro que representa en el medio y a largo plazo, lo cual es inherentemente más difícil de juzgar y más especulativo.

Quizás existe una información valiosa en el hecho de que ambos grupos subestimaron la tasa de progreso de la IA: tal vez sea una señal de que todos hemos subestimado la tecnología, y seguirá mejorando más rápido de lo previsto. Por otra parte, las predicciones en 2022 se hicieron antes del lanzamiento de ChatGPT en noviembre de ese año. ¿A quién recuerdas antes el lanzamiento de esa aplicación que predice que los chatbots de IA se volverían omnipresentes en el trabajo y la escuela? Ya no saber ¿Esa IA dio grandes saltos en capacidades en los años 2022–2025? ¿Eso nos dice algo sobre si la tecnología podría no estar disminuyendo, lo que, a su vez, sería clave para pronosticar su amenaza a largo plazo?

Al leer el último informe de Vie, terminé en un lugar similar a mi ex colega Kelsey Piper el año pasado. Piper señaló que no extrapolar las tendencias, especialmente las tendencias exponenciales, en el futuro ha llevado a las personas a extraviarse en el pasado. El hecho de que relativamente pocos estadounidenses tenían covid en enero de 2020 no significaba que Covid no fuera una amenaza; Significaba que el país estaba al comienzo de una curva de crecimiento exponencial. Un tipo de falla similar llevaría a uno a subestimar el progreso de la IA y, con él, cualquier riesgo existencial potencial.

Al mismo tiempo, en la mayoría de los contextos, el crecimiento exponencial no puede continuar para siempre; Maximiza en algún momento. Es notable que, por ejemplo, la ley de Moore ha predicho ampliamente el crecimiento de la densidad del microprocesador con precisión durante décadas, pero la ley de Moore es famosa en parte porque es inusual que las tendencias sobre las tecnologías creadas por los humanos sigan un patrón tan limpio.

«Cada vez más he llegado a creer que no hay sustituto para profundizar en las malas hierbas cuando está considerando estas preguntas», concluyó Piper. «Si bien hay preguntas que podemos responder de los primeros principios, (el progreso de IA) no es una de ellas».

Me temo que tiene razón, y que, peor, la mera deferencia a los expertos tampoco es suficiente, no cuando los expertos no están de acuerdo entre sí tanto en detalles como en trayectorias amplias. Realmente no tenemos una buena alternativa para tratar de aprender tanto como podamos como individuos y, no lo fallamos, esperando y viendo. Esa no es una conclusión satisfactoria para un boletín, o una respuesta reconfortante a una de las preguntas más importantes que enfrenta la humanidad, pero es lo mejor que puedo hacer.