Él es el Padrino de AI. Ahora, tiene un nuevo plan audaz para mantenernos a salvo de él.

El autor de ciencia ficción Isaac Asimov una vez presentó un conjunto de leyes que los humanos deberíamos programar en nuestros robots. Además de una primera, segunda y tercera ley, también introdujo una «ley cero», que es tan importante que precede a todos los demás: «Un robot puede no dañar a un ser humano o, por inacción, permitir que un ser humano se dañe».

Este mes, el científico informático Yoshua Bengio, conocido como el «Padrino de AI» debido a su trabajo pionero en el campo, lanzó una nueva organización llamada Lawzero. Como probablemente pueda adivinar, su misión principal es asegurarse de que AI no dañe la humanidad.

A pesar de que ayudó a sentar las bases para la IA avanzada de hoy, Bengio está cada vez más preocupado por la tecnología en los últimos años. En 2023, firmó una carta abierta instando a las compañías de IA a presionar pausa en el desarrollo de IA de última generación. Tanto por los daños actuales de la IA (como el sesgo contra los grupos marginados) como los riesgos futuros de la IA (como las bioweapons de ingeniería), hay razones muy fuertes para pensar que la desaceleración habría sido algo bueno.

Pero las empresas son empresas. No disminuyeron la velocidad. De hecho, crearon AIS autónomos conocidos como agentes de IA, que pueden ver la pantalla de su computadora, seleccionar botones y realizar tareas, tal como puede. Mientras que ChatGPT debe ser solicitado por un humano en cada paso del camino, un agente puede lograr objetivos de varios pasos con una mínima solicitación, similar a un asistente personal. En este momento, esos objetivos son simples, crean un sitio web, digamos, y los agentes aún no funcionan tan bien. Pero a Bengio le preocupa que dar agencia AIS sea un movimiento inherentemente arriesgado: eventualmente, podrían escapar del control humano y volverse «pícaros».

Entonces, ahora, Bengio está girando a un plan de respaldo. Si no puede lograr que las empresas dejen de intentar construir una IA que coincida con la inteligencia humana (inteligencia general artificial, o AGI) o incluso supere la inteligencia humana (superinteligencia artificial o ASI), entonces quiere construir algo que impidiera que esos IA dañen a la humanidad. Lo llama «científico ai».

El científico AI no será como un agente de IA: no tendrá autonomía ni objetivos propios. En cambio, su trabajo principal será calcular la probabilidad de que la acción de alguna otra IA cause daño y, si la acción es demasiado arriesgada, la bloquee. Las compañías de IA podrían superponer a los científicos a la IA en sus modelos para evitar que hagan algo peligroso, similar a la forma en que ponemos las barandillas a lo largo de las carreteras para evitar que los autos se desvanezcan.

Hablé con Bengio sobre por qué está tan perturbado por los sistemas de IA de hoy, si lamenta haber hecho la investigación que llevó a su creación, y si cree que lanzar aún más IA en el problema será suficiente para resolverla. Sigue una transcripción de nuestra conversación inusualmente sincera, editada por longitud y claridad.

Cuando las personas expresan preocupación por la IA, a menudo lo expresan como una preocupación por la inteligencia general artificial o la superinteligencia. ¿Crees que eso es lo incorrecto de lo que preocuparse? ¿Deberíamos solo preocuparnos por AGI o ASI en la medida en que incluye la agencia?

Sí. Podrías tener una IA superintelligente que no «quiera» nada, y no es totalmente peligroso porque no tiene sus propios objetivos. Es como una enciclopedia muy inteligente.

Los investigadores han advertido durante años sobre los riesgos de los sistemas de IA, especialmente los sistemas con sus propios objetivos e inteligencia general. ¿Puede explicar qué hace que la situación sea cada vez más aterradora para usted ahora?

En los últimos seis meses, hemos obtenido evidencia de AIS que están tan desalineadas que irían en contra de nuestras instrucciones morales. Planearían y harían estas cosas malas: mentir, hacer trampa, tratar de persuadirnos con engaños y, lo peor de todo, tratar de escapar de nuestro control y no querer ser cerrados, y hacer cualquier cosa (para evitar el cierre), incluido el chantaje. Estos no son un peligro inmediato porque todos son experimentos controlados … pero no sabemos cómo lidiar realmente con esto.

¿Y estos malos comportamientos aumentan cuanto más agencia tiene el sistema de IA?

Sí. Los sistemas que tuvimos el año pasado, antes de entrar en modelos de razonamiento, eran mucho menos propensos a esto. Está empeorando cada vez más. Eso tiene sentido porque vemos que su capacidad de planificación está mejorando exponencialmente. Y (el AIS) necesita una buena planificación para estrategias sobre cosas como «¿Cómo voy a convencer a estas personas para que hagan lo que quiero?» o «¿Cómo escapo de su control?» Entonces, si no solucionamos estos problemas rápidamente, podemos terminar, inicialmente, accidentes divertidos, y más tarde, accidentes no divertidos.

Eso es motivar lo que estamos tratando de hacer en Lawzero. Estamos tratando de pensar en cómo diseñamos AI con más precisión, de modo que, por construcción, ni siquiera tendrá ningún incentivo o razón para hacer esas cosas. De hecho, no va a querer nada.

Cuéntame cómo el científico AI podría usarse como una barandilla contra las malas acciones de un agente de IA. Me estoy imaginando al científico IA como la niñera de la IA agente, verificando dos veces lo que está haciendo.

Entonces, para hacer el trabajo de una barandilla, no necesita ser un agente usted mismo. Lo único que debe hacer es hacer una buena predicción. Y la predicción es esta: ¿es esta acción que mi agente quiere hacer aceptable, moralmente hablando? ¿Satisface las especificaciones de seguridad que los humanos han proporcionado? ¿O va a dañar a alguien? Y si la respuesta es sí, con cierta probabilidad que no es muy pequeña, entonces la barandilla dice: No, esta es una mala acción. Y el agente tiene que (probar una acción diferente).

Pero incluso si construimos la IA científica, el dominio de «¿Qué es moral o inmoral?» es famoso contencioso. Simplemente no hay consenso. Entonces, ¿cómo aprendería el científico AI qué clasificar como una mala acción?

No es para ningún tipo de IA decidir qué está bien o mal. Deberíamos establecer que el uso de la democracia. La ley debe tratarse de tratar de ser clara sobre lo que es aceptable o no.

Ahora, por supuesto, podría haber ambigüedad en la ley. Por lo tanto, puede obtener un abogado corporativo que pueda encontrar lagunas en la ley. Pero hay una forma de evitar esto: el científico IA está planeado para que vea la ambigüedad. Verá que hay diferentes interpretaciones, digamos, de una regla particular. Y luego puede ser conservador sobre la interpretación, como en, si alguna de las interpretaciones plausibles juzgaría esta acción como realmente mala, entonces la acción es rechazada.

Creo que un problema sería que casi cualquier elección moral posiblemente tenga ambigüedad. Tenemos algunos de los problemas morales más polémicos (piense en el control de armas o el aborto en los Estados Unidos, donde, incluso democráticamente, podría obtener una proporción significativa de la población que dice que se oponen. ¿Cómo te propones lidiar con eso?

No. Excepto por tener la honestidad y racionalidad más fuerte posibles en las respuestas, lo que, en mi opinión, ya sería una gran ganancia en comparación con el tipo de discusiones democráticas que están sucediendo. Una de las características del científico IA, como un buen científico humano, es que puedes preguntar: ¿por qué estás diciendo esto? Y se le ocurriría, no «él», ¡lo siento! – él se le ocurrió una justificación.

La IA estaría involucrada en el diálogo para tratar de ayudarnos a racionalizar cuáles son los pros y los contras, etc. Así que realmente creo que este tipo de máquinas podrían convertirse en herramientas para ayudar a los debates democráticos. Es un poco más que verificación de hechos, también es como verificar el razonamiento.

Esta idea de desarrollar la IA científica proviene de su desilusión con la IA que hemos estado desarrollando hasta ahora. Y su investigación fue muy fundamental para sentar las bases para ese tipo de IA. A nivel personal, ¿sientes algún sentido del conflicto interno o te arrepientes de haber hecho la investigación que estableció ese trabajo basado en las bases?

Debería haber pensado en esto hace 10 años. De hecho, podría haberlo hecho, porque leí algunos de los primeros trabajos en seguridad de IA. Pero creo que hay defensas psicológicas muy fuertes que tuve, y que la mayoría de los investigadores de IA tienen. Quieres sentirte bien con tu trabajo, y quieres sentir que eres el buen tipo, no haces algo que pueda causar en el futuro mucho daño y muerte. Así que miramos para otro lado.

Y para mí, estaba pensando: ¡esto está tan lejos en el futuro! Antes de llegar a las cosas que suenan a la ciencia ficción, vamos a tener una IA que puede ayudarnos con la medicina, el clima y la educación, y será genial. Así que nos preocupemos por estas cosas cuando llegamos allí.

Pero eso fue antes de que llegara Chatgpt. Cuando llegó Chatgpt, no pude seguir viviendo con esta mentira interna, porque, bueno, nos estamos acercando mucho al nivel humano.

La razón por la que pregunto esto es porque me llamó la atención al leer su plan para la IA científica que usted dice que está modelado después de la idea platónica de un científico, una persona desinteresada e ideal que solo está tratando de entender el mundo. Pensé: ¿Estás tratando de alguna manera de construir la versión ideal de ti mismo, este «él» que mencionaste, el ideal científico? ¿Es como lo que desearías haber sido?

¡Deberías hacer psicoterapia en lugar de periodismo! Sí, estás bastante cerca de la marca. En cierto modo, es un ideal que he estado buscando para mí. Creo que es un ideal que los científicos deberían considerar como modelo. Porque, en su mayor parte en la ciencia, debemos alejarnos de nuestras emociones para evitar sesgos e ideas y ego preconcebidos.

Hace un par de años, usted era uno de los firmantes de la carta que instaba a las compañías de IA a detener el trabajo de vanguardia. Obviamente, la pausa no sucedió. Para mí, una de las conclusiones de ese momento fue que estamos en un punto en el que este no es predominantemente un problema tecnológico. Es político. Realmente se trata de poder y quién obtiene el poder de dar forma a la estructura de incentivos.

Sabemos que los incentivos en la industria de la IA están terriblemente desalineados. Hay una presión comercial masiva para construir IA de vanguardia. Para hacer eso, necesita un montón de cómputo para que necesite miles de millones de dólares, por lo que prácticamente está obligado a ponerse en la cama con un Microsoft o un Amazon. ¿Cómo te propones evitar ese destino?

Por eso estamos haciendo esto como una organización sin fines de lucro. Queremos evitar la presión del mercado que nos obliga a la carrera de capacidad y, en cambio, centrarnos en los aspectos científicos de la seguridad.

Creo que podríamos hacer mucho bien sin tener que entrenar modelos de fronteras. Si se nos ocurrió una metodología para capacitar a la IA que es convincentemente más segura, al menos en algunos aspectos como la pérdida de control, y la entregamos casi por libre para las empresas que están construyendo IA, bueno, nadie en estas compañías realmente quiere ver una IA rebelde. ¡Es solo que no tienen el incentivo para hacer el trabajo! Así que creo que solo saber cómo solucionar el problema reduciría considerablemente los riesgos.

También creo que los gobiernos con suerte tomarán estas preguntas cada vez más en serio. Sé que en este momento no se parece, pero cuando comenzamos a ver más evidencia del tipo que hemos visto en los últimos seis meses, pero más fuerte y más aterradora, la opinión pública podría presionar lo suficiente como para ver la regulación o alguna forma de incentivar a las empresas para que se comporten mejor. Incluso podría suceder solo por razones del mercado, como, (las compañías de IA) podrían ser demandadas. Entonces, en algún momento, podrían razonar que deberían estar dispuestos a pagar algo de dinero para reducir los riesgos de los accidentes.

Me alegró ver que Lawzero no solo está hablando de reducir los riesgos de los accidentes, sino que también está hablando de «proteger la alegría humana y el esfuerzo». Mucha gente teme que si la IA se vuelve mejor que ellos en las cosas, bueno, ¿cuál es el significado de su vida? ¿Cómo aconsejaría a las personas que piensen en el significado de su vida humana si entramos en una era en la que las máquinas tienen la agencia y la inteligencia extrema?

Entiendo que sería fácil desanimarse y sentirse impotente. Pero las decisiones que los seres humanos tomarán en los próximos años a medida que la IA se vuelve más poderosa: estas decisiones son increíblemente consecuentes. ¡Así que hay un sentido en el que es difícil tener más significado que eso! Si quieres hacer algo al respecto, sé parte del pensamiento, sé parte del debate democrático.

Nos aconsejaría a todos que nos recordemos que tenemos agencia. Y tenemos una tarea increíble frente a nosotros: dar forma al futuro.