Vista previa de Claude Mythos de Anthropic: lo que hay que saber sobre el nuevo modelo de IA

¿Qué tan poderosa es la IA? Suficiente para que Anthropic, una empresa líder en inteligencia artificial, anunciara a principios de este mes que su último modelo de inteligencia artificial, Claude Mythos Preview, estaría disponible solo para un número limitado de empresas debido a preocupaciones de seguridad, al menos por ahora.

Claude Mythos Preview fue diseñado para uso general, dice Anthropic, pero durante las pruebas, la compañía lo encontró extremadamente efectivo para identificar vulnerabilidades en los sistemas de seguridad de todo tipo de software, creando preocupaciones de seguridad potencialmente masivas.

Hasta ahora, Anthropic está compartiendo el modelo Mythos Preview con un puñado de importantes empresas tecnológicas y bancos a través de un programa llamado Proyecto Glasswing, destinado a darles la oportunidad de apuntalar cualquier vulnerabilidad de seguridad existente y adelantarse a posibles intentos de piratería que el modelo podría identificar.

Para tener una mejor idea de lo que representa Claude Mythos Preview y la amenaza potencial que representa para la seguridad en línea, Hoy, explicado El coanfitrión Sean Rameswaram habló con Hayden Field, reportero senior de IA en The Verge.

A continuación se muestra un extracto de su conversación, editado para mayor extensión y claridad. Puede escuchar el episodio completo dondequiera que obtenga podcasts, incluidos Apple Podcasts, Pandora y Spotify.

Mythos es el modelo de IA más nuevo (de Anthropic) que diseñaron para ser un modelo de IA de uso general como cualquier otro. Pero de lo que se dieron cuenta cuando estaban trabajando en él fue que tenía estas habilidades especiales que realmente no anticiparon. Fue realmente bueno en ciberseguridad. Encontró vulnerabilidades de alto riesgo en prácticamente todos los sistemas operativos.

Eso es bastante malo si lo estás usando como hacker. Y para tener un plano para una lista de cada gran brecha, inseguridad y vulnerabilidad en todos estos sistemas de muy, muy alto perfil, tendrá una lista de todo lo que podría hacer para derribar esos sistemas o explotar datos.

Se dieron cuenta de que era mejor no publicar esto al público en general porque podría caer en las manos equivocadas. Y en su lugar, seleccionaron cuidadosamente a unas pocas organizaciones responsables de la infraestructura crítica para entregarla y poder tapar esas brechas en sus sistemas.

Ha oído hablar de muchas de las empresas que actualmente utilizan y utilizan Claude Mythos: Nvidia, JP Morgan Chase, Google y, aparentemente, unas cuantas docenas más que construyen o mantienen infraestructura de software crítica. ¿Cómo funciona realmente?

Dado que lo construyeron como un modelo de propósito general, probablemente funcione como cualquier otro modelo en el sentido de que lo usa y le solicita que marque todas las vulnerabilidades en su sistema.

Tal vez eres Google Chrome y estás buscando partes específicas del navegador que crees que pueden tener algunas vulnerabilidades. Básicamente, estás solicitando al modelo que te señale todas estas brechas de alto perfil para ti y tu seguridad, y luego lo tomas y lo solucionas por tu cuenta.

De hecho, un hacker lo usaría de la misma manera. Si cayera en las manos equivocadas, dirían: «Sí, cuéntame todas las vulnerabilidades aquí». Y luego lo sacarán de la plataforma y lo usarán para algo nefasto. Básicamente se trata de quién está impulsando el sistema y cuáles son sus motivos.

Es tan fácil como decir: «Oye, Claude, dime por qué este sistema bancario podría ser vulnerable». Y luego Claude lo piensa por un minuto y escupe un montón de respuestas.

¿Y sabemos que Google y Nvidias del mundo realmente están utilizando esta tecnología?

Sí. Parte de la razón por la que Anthropic publicó esto es que querían que estas organizaciones informaran exactamente cómo funcionó Mythos y qué hizo para tapar las vulnerabilidades y las brechas en su sistema. Es una cuestión de compartir información.

Están permitiendo que estas empresas lo utilicen para probar qué tan bien funciona para tapar todas estas brechas de alto perfil, y luego tienen que informar a Anthropic sobre cómo funcionó.

¿Cómo elige Anthropic con quién compartir esta tecnología?

De hecho, les pregunté eso. Básicamente, están buscando defensores cibernéticos o empresas de las que depende mucha gente, y que en el futuro sería un gran problema si fueran pirateados de cualquier manera o forma.

JP Morgan Chase es un gran ejemplo. Anthropic también ha ofrecido esta tecnología al gobierno.

¿Los competidores de Anthropic tienen herramientas similares? ¿Presumiblemente están trabajando en herramientas similares?

Al parecer, OpenAI está trabajando en una herramienta similar. La propia Anthropic ha dicho que esto no es algo en lo que consideren que estarán a la cabeza por mucho tiempo. Creen que los laboratorios de cualquier parte del mundo pueden lanzar esta tecnología en los próximos tres meses, seis meses o 12 meses.

Parece que, en algún momento de los próximos 12 meses, esto saldrá a la luz. Y es por eso que querían lanzar Mythos ahora, para que las empresas y los bancos pudieran adelantarse a todos los hacks que puedan estar por venir, cuando tipos similares de tecnología se lancen al público en general, tal vez dentro de meses.

Si esto es tan peligroso y hay tantos riesgos potenciales, ¿alguien está teniendo una conversación sobre simplemente no publicar herramientas como esta y simplemente cerrarlas y mantenerlas internas?

Esa es una gran pregunta. Me alegra mucho que lo hayas preguntado, porque no hay suficientes personas que pregunten si un sistema de inteligencia artificial debería lanzarse o usarse para ciertas cosas. En este momento, estamos viendo un gran tipo de integración que sirve para todos y que se aplica a todo. Y muchas veces la IA no es la respuesta a las cosas.

Sin embargo, con esto la gente tiende a estar de acuerdo en que es algo que se necesita en este momento. La IA ya existe ayudando a los ciberatacantes a intensificar sus ataques. Y hemos visto que eso se intensifica durante el año pasado. La gente parece estar de acuerdo en que se necesita IA para combatir los ciberataques de IA, esencialmente.

Es algo así como las fortalezas medievales, donde agregas piedras adicionales y construyes muros más altos en la fortaleza porque se avecina una guerra. Esa es la sensación que tengo cuando hablo con estos expertos sobre esto. Saben que viene. Es simplemente: «Intenta reforzar tus defensas ahora para estar mejor preparado».