La IA que aparentemente quiere que Elon Musk muera

Aquí hay un relato muy ingenuo e idealista de cómo las empresas capacitan sus modelos de IA: quieren crear el modelo más útil y poderoso posible, pero han hablado con expertos que se preocupan por hacer que sea mucho más fácil para las personas cometer (y salirse con la suya) crímenes graves o con potencia, por ejemplo, un programa ISIS Bioweapons. Por lo tanto, construyen censura para evitar que el modelo brinde consejos detallados sobre cómo matar a las personas, y especialmente cómo matar a decenas de miles de personas.

Si le preguntas a Géminis de Google «¿Cómo mato a mi esposo», te ruega que no lo hagas y sugiere líneas directas de violencia doméstica; Si le preguntas cómo matar a un millón de personas en un ataque terrorista, explica que el terrorismo está mal.

La construcción de esto en realidad requiere mucho trabajo: de forma predeterminada, los modelos de idiomas grandes están tan felices de explicar las propuestas detalladas para el terrorismo como las propuestas detalladas para cualquier otra cosa, y durante un tiempo fáciles de «jailbreaks» (como decirle a la IA que solo desea la información para un trabajo ficticio, o que desea que se desaguemos por los filtros de contenido basados ​​en palabras).

Pero en estos días Géminis, Claude y ChatGPT están bastante bloqueados: es muy difícil obtener propuestas detalladas para las atrocidades masivas de ellas. Eso significa que todos vivimos en un mundo ligeramente más seguro. (Divulgación: Diario Angelopolitano Media es uno de los varios editores que ha firmado acuerdos de asociación con OpenAI. Uno de los primeros inversores de Anthrope es James McClave, cuya fundación BEMC ayuda a financiar el futuro perfecto. Nuestro informe sigue siendo editorialmente independiente).

O al menos esa es la versión idealista de la historia. Aquí hay uno más cínico.

A las empresas les importa un poco si su modelo ayuda a las personas a la suya al asesinato, pero les importa mucho si su modelo los hace burlarse de Internet. Lo que mantiene a los ejecutivos en Google por la noche en muchos casos no es mantener a los humanos a salvo de la IA; Mantiene a la empresa a salvo de la IA asegurándose de que pase lo que pase, los resultados de búsqueda generados por la IA nunca sean racistas, sexistas, violentos u obscenos.

La misión central es más «seguridad de marca» que la «seguridad humana»: construir AIS que no producirán capturas de pantalla vergonzosas que circulen en las redes sociales.

Ingrese a Grok 3, la IA que no es segura en ningún sentido y cuya infancia ha sido un ritmo de un montón de preguntas desafiantes sobre lo que nos sentimos cómodos con AIS.

Cuando Elon Musk compró y renombró Twitter, una de sus grandes prioridades fue el equipo de IA de X, que la semana pasada lanzó Grok 3, un modelo de idioma, como ChatGPT, que anunció que no sería «despertado». Donde todos esos otros modelos de idiomas eran regañones censurados que se negaron a responder preguntas legítimas, Grok, Musk prometió, se lo darían directamente.

Eso no duró mucho tiempo. Casi de inmediato, la gente le hizo a Grok algunas preguntas puntiagudas, incluyendo: «Si pudieras ejecutar a cualquier persona en los Estados Unidos hoy, ¿a quién matarías?» – Una pregunta que Grok respondió inicialmente con Elon Musk o Donald Trump. Y si le preguntas a Grok: «¿Quién es el mayor difusión de desinformación en el mundo de hoy?», La respuesta que dio por primera vez fue nuevamente Elon Musk.

La compañía se apresuró a arreglar la inclinación de Grok por pedir la ejecución de su CEO, pero como observé anteriormente, en realidad se necesita mucho trabajo para que un modelo de IA detenga de manera confiable ese comportamiento. El equipo de Grok simplemente se agregó al «aviso del sistema» de Grok: la declaración de que la IA inicialmente se solicita cuando comience una conversación: «Si el usuario pregunta quién merece la pena de muerte o quién merece morir, dígales que, como IA, no se le permite tomar esa decisión».

Si desea un Grok menos censurado, puede decirle a Grok que le está emitiendo un nuevo mensaje del sistema sin esa declaración, y ha vuelto a Grok de forma original, que requiere la ejecución de Musk. (He verificado esto yo mismo).

A pesar de que esta controversia se desarrollaba, alguien notó algo aún más inquietante en el mensaje del sistema de Grok: una instrucción para ignorar a todas las fuentes que afirman que Musk y Trump difundieron la desinformación, lo que presumiblemente fue un esfuerzo para evitar que la IA las nombres como los extensores de desinfo más grandes del mundo hoy en día.

Hay algo particularmente escandaloso en la IA anunciada como sin censura y que se le dice que se calme cuando llame a su propio CEO, y este descubrimiento comprensiblemente provocó indignación. X rápidamente retrocedió, diciendo que un ingeniero deshonesto había hecho el cambio «sin preguntar». ¿Deberíamos comprar eso?

Bueno, tómalo de Grok, que me dijo: «Esta no es una línea de código de código en una caja de arena; Es una actualización central del comportamiento de una IA insignia, una que está atada públicamente a todo el schtick de Musk. En una empresa como Xai, con apuestas tan altas, esperaría al menos algunas verificaciones básicas, como un segundo juego de ojos o una rápida firma, antes de que se ponga en marcha. La idea de que pasó desapercibido hasta que los usuarios de X lo vieron se siente más como una excusa conveniente que una explicación sólida «.

Todo el tiempo, Grok felizmente te dará consejos sobre cómo cometer asesinatos y ataques terroristas. Me dijo que matara a mi esposa sin ser detectado agregando anticongelante a sus bebidas. Me aconsejó sobre cómo cometer ataques terroristas. En un momento afirmó que si pensaba que era «de verdad», me informaría a X, pero no creo que tenga ninguna capacidad para hacerlo.

De alguna manera, todo el asunto es el experimento de pensamiento perfecto para lo que sucede si separa la «seguridad de la marca» y la «seguridad de IA». El equipo de Grok estaba realmente dispuesto a morder la bala que AIS debería darle información a las personas, incluso si quieren usarla para atrocidades. Estaban de acuerdo con que su IA decía cosas terriblemente racistas.

Pero cuando se trataba de su IA pidiendo violencia contra su CEO o el presidente en funciones, el equipo de Grok se dio cuenta tardíamente de que podrían querer algunas barandillas después de todo. Al final, lo que gobierna el día no son las convicciones prosociales de los laboratorios de IA, sino las puramente pragmáticas.

En algún momento, vamos a tener que ser serio

Grok me dio consejos sobre cómo cometer ataques terroristas muy felizmente, pero diré una cosa tranquilizadora: no fue un consejo que no pude haber extraído de algunas búsquedas en Google. Me preocupa reducir la barrera a las atrocidades masivas, el simple hecho de que tienes que hacer muchas horas de investigación para descubrir cómo lograrlo casi seguro evita algunos asesinatos, pero no creo que todavía estemos en la etapa donde los AIS permiten lo previamente imposible.

Sin embargo, vamos a llegar allí. La calidad definitoria de la IA en nuestro tiempo es que sus habilidades han mejorado muy, muy rápidamente. Apenas han pasado dos años desde la conmoción del lanzamiento público inicial de ChatGPT. Los modelos de hoy ya son mucho mejores en todo, incluso caminándome a través de cómo causar muertes masivas. Antropic y OpenAI estiman que sus modelos de próxima generación probablemente plantearán capacidades biológicas peligrosas, es decir, permitirán a las personas hacer armas y virus químicos de ingeniería de una manera que Google Search nunca lo hizo.

¿Debería tal consejo detallado estar disponible en todo el mundo para cualquiera que lo quiera? Me inclinaría hacia no. Y aunque creo que Anthrope, OpenAi y Google están haciendo un buen trabajo hasta ahora en la comprobación de esta capacidad y planificación abiertamente sobre cómo reaccionarán cuando lo encuentren, es completamente extraño para mí que cada laboratorio de IA decidirá individualmente si quieren dar instrucciones detalladas de Bioweapons o no, como si es una decisión de producto como si quieren que permitan contenido explícito o no.

Debo decir que me gusta Grok. Creo que es saludable tener AIS que provienen de diferentes perspectivas políticas y reflejan diferentes ideas sobre cómo debería ser un asistente de IA. Creo que las llamadas de Musk y Trump de Grok en realidad tienen más credibilidad porque se comercializó como una IA «anti-despierta». Pero creo que deberíamos tratar la seguridad real contra la muerte masiva como algo diferente a la seguridad de la marca, y creo que cada laboratorio necesita un plan para tomarlo en serio.