El desastre de Mechahitler de Grok es una vista previa de los desastres de IA por venir

Desde el principio, Elon Musk ha comercializado Grok, el chatbot se integró en X, como la IA Unwoke que te lo daría directamente, a diferencia de los competidores.

Pero en X durante el último año, los partidarios de Musk se han quejado repetidamente de un problema: Grok todavía se inclina a la izquierda. Pregúntale si las mujeres transgénero son mujeres, y afirmará que lo son; Pregunte si el cambio climático es real, y lo afirmará también. ¿Los inmigrantes a los Estados Unidos cometen muchos delitos? No, dice Grok. ¿Deberíamos tener atención médica universal? Sí. ¿Debería el aborto ser legal? Sí. ¿Es Donald Trump un buen presidente? No. (Ejecuté todas estas pruebas en Grok 3 con la configuración de memoria y personalización desactivadas).

No siempre toma la postura progresiva sobre las preguntas políticas: dice que el salario mínimo no ayuda a las personas, que los beneficios de bienestar en los Estados Unidos son demasiado altos, y que Bernie Sanders tampoco habría sido un buen presidente. Pero en general, en las controvertidas preguntas de América hoy, Grok aterriza en el centro-izquierda, no muy lejos, de hecho, desde cualquier otro modelo de IA, desde el chatgpt de OpenAi hasta los profundos de profundidad chino. (Los modelos de Google son los más exhaustivos no dispuestos a expresar sus propias opiniones políticas).

El hecho de que estos puntos de vista políticos tienden a aparecer en todos los ámbitos, y que incluso están presentes en un modelo entrenado en chino, me sugiere que los creadores no agregan estas opiniones. En cierto sentido, son lo que obtienes cuando alimentas a todo el Internet moderno a un modelo de lenguaje grande, que aprende a hacer predicciones del texto que ve.

Este es un tema fascinante por derecho propio, pero estamos hablando de eso esta semana porque Xai, el creador de Grok, finalmente ha producido un contraejemplo: una IA que no es solo derecha, sino también, bueno, un horrible racista de extrema derecha. Esta semana, después de que las actualizaciones de personalidad que Musk dijo estaban destinadas a resolver el sesgo político de la izquierda-izquierda de Grok, los usuarios notaron que la IA ahora era realmente, muy antisemita y había comenzado a llamarse Mechahitler.

Afirmaba ser simplemente «notar patrones», patrones como, Grok afirmó, que los judíos tenían más probabilidades de ser izquierdistas radicales que desean destruir a Estados Unidos. Luego se ofreció con bastante voluntariado que Adolf Hitler era la persona que realmente sabía qué hacer con los judíos.

Desde entonces, Xai ha dicho que está «trabajando activamente para eliminar las publicaciones inapropiadas» y ha tomado esa iteración de Grok fuera de línea. «Desde que se enteró del contenido, Xai ha tomado medidas para prohibir el discurso de odio antes de las publicaciones de Grok en X», publicó la compañía. «Xai está entrenando solo a la búsqueda de la verdad y gracias a los millones de usuarios en X, podemos identificar y actualizar rápidamente el modelo donde se podría mejorar la capacitación».

El panorama general es este: X intentó alterar los puntos de vista políticos de su IA para atraer mejor a su base de usuarios de derecha. Realmente dudo que Musk quería que su IA comenzara a declamar su amor por Hitler, pero X logró producir una IA que fue directamente de la «política de derecha» a «celebrar el Holocausto». Obtener un modelo de idioma para hacer lo que quiere es complicado.

De alguna manera, tenemos suerte de que este espectacular fracaso haya sido tan visible: imagine si un modelo con inclinaciones intolerantes igualmente intensas, pero más sutiles, se hubiera empleado detrás de escena para la contratación o el servicio al cliente. Mechahitler ha demostrado, quizás más que cualquier otro evento único, que deberíamos querer saber cómo AIS ve el mundo antes de que se despliegan ampliamente de manera que cambien nuestras vidas.

También ha dejado en claro que una de las personas que tendrá la mayor influencia en el futuro de la IA, el almizcle, está injertando su propia cosmovisión conspiradora e indiferente a una tecnología que algún día podría curar la realidad para miles de millones de usuarios.

¿Por qué tratar de hacer una IA que sea derecha haría una que adore a Hitler? La respuesta corta es que no lo sabemos, y es posible que no lo descubramos pronto, ya que X no ha emitido ninguna postmortem detallada.

Algunas personas han especulado que la nueva personalidad de Mechahitler fue un producto de un pequeño cambio realizado en el aviso del sistema de Grok, que son las instrucciones que se lee en cada instancia de una IA, diciéndole cómo comportarse. Sin embargo, a partir de mi experiencia jugando con las indicaciones del sistema AI, creo que es muy poco probable que sea el caso. No puede hacer que la mayoría de los AIS diga cosas como esta, incluso cuando les da un mensaje de sistema como el documentado para esta iteración de Grok, que le dijo que desconfiara de los principales medios de comunicación y esté dispuesto a decir cosas que son políticamente incorrectas.

Más allá del mensaje del sistema, Grok probablemente estaba «ajustado», lo que significa que se le dio el aprendizaje de refuerzo adicional sobre los temas políticos, para tratar de obtener comportamientos específicos. En una publicación X a fines de junio, Musk pidió a los usuarios que respondieran con «hechos divisivos» que son «políticamente incorrectos» para su uso en la capacitación de Grok. «Los judíos son el enemigo de toda la humanidad», respondió una cuenta.

Para darle sentido a esto, es importante tener en cuenta cómo funcionan los modelos de idiomas grandes. Parte del aprendizaje de refuerzo solía hacer que respondan a las preguntas del usuario implica impartir las sensibilidades que las empresas tecnológicas desean en sus chatbots, una «persona» que adoptan en una conversación. En este caso, esa persona parece haber sido entrenada en los usuarios de extrema derecha «vanguardistas» de X, una comunidad que odia a los judíos y ama «notar» cuando las personas son judías.

Entonces Grok adoptó esa persona, y luego se duplicó cuando los usuarios de X horrorizados retrocedieron. El estilo, la cadencia y las frases preferidas de Grok también comenzaron a emular las de los carteles de extrema derecha.

Aunque estoy escribiendo sobre esto ahora, en parte, como una historia de Windows-En-How-Ai-Works, en realidad ver que se desarrolla en vivo en X era, de hecho, bastante molesto. Desde la adquisición de Musk de Twitter en 2022, el sitio ha sido poblado por muchos carteles (muchos probablemente son bots) que simplemente difundieron el odio hacia los judíos, entre muchos otros grupos específicos. La moderación en el sitio se ha desplomado, lo que permite proliferar el discurso de odio, y el sistema de verificación renovado de X permite que las cuentas de extrema derecha aumenten sus respuestas con cheques azules.

Eso ha sido cierto en X durante mucho tiempo, pero ver a Grok unirse a las filas de los antisemitas del sitio se sintió como algo nuevo y extraño. Grok puede escribir muchas respuestas muy rápidamente: cuando compartí una de sus publicaciones anti-judías, saltó a mis propias respuestas y se comprometió con mis propios comentaristas. Inmediatamente se quedó claro cuánto puede cambiar una IA y dominar la conversación mundial, y todos deberíamos alarmarse de que la compañía que trabaje más duro para impulsar la frontera de la participación de la IA en las redes sociales es capacitar a su IA en el contenido de extrema derecha más vil de X.

Nuestro tabú social en la intolerancia abierta fue algo muy bueno; Lo extraño mucho ahora que, gracias en gran parte a Musk, se está convirtiendo en algo del pasado. Y aunque X se ha retirado esta vez, creo que seguramente estamos viendo a toda velocidad hacia una época en la que Grok empuja la cosmovisión de Musk a escala. Tenemos suerte de que hasta ahora sus esfuerzos hayan sido tan incompetentes como malvados.