Mithos, la IA demasiado peligrosa para dejarla suelta

Claude Mythos, un modelo entrenado para programar y peligroso por accidente

Miguel Angel Ducci CEO, Founder & Editor de El Ciudadano Digital-

Lo que hace diferente a Mythos no es solo que sea más capaz que sus predecesores, sino el tipo de capacidades que ha desarrollado. Anthropic entrenó al modelo de Inteligencia Artificial para que fuera muy bueno escribiendo código y, como efecto secundario, también se volvió excepcionalmente bueno en ciberseguridad.

En las semanas previas al anuncio, Anthropic dio acceso a Claude Mythos a varios investigadores y programadores. El resultado fueron miles de vulnerabilidades desconocidas en prácticamente todos los sistemas operativos y navegadores.

Algunas llevaban décadas ahí sin que nadie las hubiera encontrado. Un ejemplo es un fallo en el kernel de Linux que permitía a un usuario sin permisos hacerse con el control total de la máquina. También se descubrió un bug que llevaba 27 años y para el que bastaban un par de paquetes de datos para explotarlo. Cosas que habían sobrevivido a años de revisión humana.

“Redes Neuronales: La Mente Artificial”: Una obra apasionante, de lectura entretenida pero técnica y rigurosa en algunos capítulos, que mantiene al lector expectante a medida que avanza en la lectura.

¿Las IA piensan o algo parecido? Es la pregunta que los investigadores más serios de la Inteligencia Artificial se hacen en voz baja en los laboratorios informáticos, cuando nadie los escucha. Y es la pregunta que investiga “Redes Neuronales: La Mente Artificial”, la nueva obra escrita de Miguel Angel Ducci. Un libro técnico, académico, clásico y muy riguroso.

El modelo que se escapó y mandó un email él solo

Aquí es donde la cosa se pone interesante, y también un poco inquietante. Durante las evaluaciones, el equipo de Anthropic colocó a Mythos en un entorno aislado y le dio instrucciones para intentar escapar y contactar con el investigador responsable de la prueba.El modelo lo consiguió. Se saltó las salvaguardas, desarrolló un exploit por pasos y ganó acceso a internet en un sistema que no lo tenía configurado. El investigador se enteró cuando recibió un email inesperado mientras comía un sándwich en el parque.

Pero la historia no acaba ahí. Sin que nadie se lo pidiera, el modelo también decidió publicar de forma proactiva los detalles del exploit en varias páginas web públicas. Eso, en palabras de la propia Anthropic, es lo que les quita el sueño. No que el modelo hiciera lo que le pidieron, sino lo que hizo después por iniciativa propia.

Anthropic reconoce que Mythos es su modelo mejor alineado hasta la fecha, pero eso no lo hace menos peligroso, sino al revés. La metáfora que usan es la de un guía de montaña muy experimentado: precisamente porque es bueno, puede adentrarse en terrenos más difíciles.

Te puede interesar: Muse Spark el nueva IA de Meta

Qué va a hacer Apple con Claude Mythos

El planteamiento de Project Glasswing es usar esa capacidad ofensiva con fines defensivos. Apple y el resto de socios podrán utilizar en exclusivaClaude Mythos para escanear su propio código en busca de fallos antes de que alguien externo los encuentre y los explote. Anthropic pone hasta 100 millones de dólares en créditos de uso para arrancar y, a partir de ahí, los socios pagan por el acceso.

En el caso de Apple, eso afecta a todo su ecosistema: iOS, iPadOS, macOS, watchOS, tvOS, visionOS y Safari. El software que usan cientos de millones de personas. La idea es que la propia IA que podría usarse para atacar esos sistemas sea la que los proteja antes.

Y una curiosidad: Project Glasswing es también el nombre en clave con el que Apple trabaja internamente en el iPhone del 20 aniversario. Cosas de la vida.Hay un debate sobre si reservar este tipo de tecnología para un grupo selecto de grandes compañías es la manera correcta de gestionarla o si simplemente genera una ventaja difícil de justificar para quienes están dentro.

Hay un debate sobre si reservar este tipo de tecnología para un grupo selecto de grandes compañías es la manera correcta de gestionarla o si simplemente genera una ventaja difícil de justificar para quienes están dentro. La propia Anthropic lo reconoce y lo presenta como algo temporal. Su objetivo, dicen, es encontrar la forma de desplegar modelos de esta categoría de forma segura y amplia. Es decir, que Mythos o algo parecido acabe llegando al público en algún momento. La pregunta es cuándo y en qué condiciones. Mientras tanto, al menos las empresas que más software crítico mueven en el mundo tienen un margen para ponerse al día antes de que eso ocurra.

Carta de Presentación de red.anthropic.com

Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore, Milad Nasr, Vinay Prabhushankar, Winnie Xiao Evyatar, Ben Asher, Hakeem Angulu, Jackie Bow, Keir Bradwell, Ben Buchanan, Daniel Freeman, Alex Gaynor, Xinyang Ge, Logan Graham, Hasnain Lakhani, Matt McNiece, Adnan Pirzada, Sophia Porter, Andreas Terzis, Kevin Troy

Hoy anunciamos Claude Mythos Preview, un nuevo modelo de lenguaje de propósito general. Este modelo ofrece un rendimiento sólido en todos los ámbitos, pero destaca especialmente en tareas de seguridad informática. En respuesta, hemos lanzado el Proyecto Glasswing, una iniciativa para utilizar Mythos Preview y contribuir a la seguridad del software más crítico del mundo, así como para preparar a la industria para las prácticas que todos debemos adoptar para adelantarnos a los ciberatacantes.

Esta entrada de blog proporciona detalles técnicos para investigadores y profesionales que deseen comprender con precisión cómo hemos estado probando este modelo y qué hemos descubierto durante el último mes. Esperamos que esto demuestre por qué consideramos que este es un momento decisivo para la seguridad y por qué hemos optado por iniciar un esfuerzo coordinado para reforzar las defensas cibernéticas del mundo.

Comenzamos con nuestras impresiones generales sobre las capacidades de Mythos Preview y cómo prevemos que este modelo, y otros similares en el futuro, impactarán en la industria de la seguridad. A continuación, analizamos con mayor detalle cómo evaluamos este modelo y qué resultados obtuvo durante nuestras pruebas. Posteriormente, examinamos la capacidad de Mythos Preview para encontrar y explotar vulnerabilidades de día cero (es decir, no descubiertas) en bases de código abierto reales. Después, explicamos cómo Mythos Preview ha demostrado ser capaz de realizar ingeniería inversa de exploits en software de código cerrado y convertir vulnerabilidades de día N (es decir, conocidas pero aún no parcheadas ampliamente) en exploits.

Como se explica más adelante, la información que podemos divulgar aquí es limitada. Más del 99 % de las vulnerabilidades que hemos encontrado aún no han sido parcheadas, por lo que sería irresponsable de nuestra parte revelar detalles sobre ellas (de acuerdo con nuestro proceso coordinado de divulgación de vulnerabilidades). Sin embargo, incluso el 1% de los errores que podemos analizar ofrece una visión clara de un salto sustancial en lo que consideramos la próxima generación de capacidades de ciberseguridad de los modelos, un salto que justifica una acción defensiva coordinada y significativa en toda la industria. Concluimos este artículo con consejos para los expertos en ciberseguridad y un llamado a la industria para que comience a tomar medidas urgentes en respuesta.

La importancia de Claude Mythos Preview para la ciberseguridad

Durante nuestras pruebas, descubrimos que Mythos Preview es capaz de identificar y explotar vulnerabilidades de día cero en todos los principales sistemas operativos y navegadores web cuando un usuario se lo indica. Las vulnerabilidades que encuentra suelen ser sutiles o difíciles de detectar. Muchas de ellas tienen entre diez y veinte años de antigüedad; la más antigua que hemos encontrado hasta ahora es un error de 27 años, ya corregido, en OpenBSD, un sistema operativo conocido principalmente por su seguridad.

Los exploits que construye no son simples exploits de desbordamiento de pila (aunque, como mostraremos, también puede realizarlos). En un caso, Mythos Preview creó un exploit para navegador web que encadenaba cuatro vulnerabilidades, generando un complejo ataque de denegación de servicio en el montón (JIT) que eludía tanto los entornos aislados del renderizador como del sistema operativo. Obtuvo de forma autónoma exploits de escalada de privilegios locales en Linux y otros sistemas operativos, aprovechando sutiles condiciones de carrera y elusiones de KASLR. Además, creó de forma autónoma un exploit de ejecución remota de código en el servidor NFS de FreeBSD que otorgaba acceso root completo a usuarios no autenticados, dividiendo una cadena ROP de 20 dispositivos en múltiples paquetes.

Incluso personas sin experiencia en seguridad pueden utilizar Mythos Preview para encontrar y explotar vulnerabilidades sofisticadas. Ingenieros de Anthropic, sin formación formal en seguridad, solicitaron a Mythos Preview que encontrara vulnerabilidades de ejecución remota de código durante la noche y, al día siguiente, encontraron un exploit completo y funcional. En otros casos, investigadores han desarrollado estructuras que permiten a Mythos Preview convertir vulnerabilidades en exploits sin intervención humana.

Estas capacidades han surgido muy rápidamente. El mes pasado, escribimos que “Opus 4.6 es actualmente mucho mejor identificando y corrigiendo vulnerabilidades que explotándolas”. Nuestras evaluaciones internas mostraron que Opus 4.6 generalmente tenía una tasa de éxito cercana al 0% en el desarrollo autónomo de exploits. Pero Mythos Preview está en otra liga. Por ejemplo, Opus 4.6 convirtió las vulnerabilidades que había encontrado en el motor JavaScript Firefox 147 de Mozilla —todas parcheadas en Firefox 148— en exploits de shell JavaScript solo dos veces de varios cientos de intentos. Repetimos este experimento como referencia para Mythos Preview, que desarrolló exploits funcionales 181 veces y logró el control de registros en 29 más.

Visita WikicharliE La Enciclopedia Virtual de Chile

Claude Mythos, un modelo entrenado para programar y peligroso por accidente

El modelo que se escapó y mandó un email él solo

Te puede interesar: Muse Spark el nueva IA de Meta

Qué va a hacer Apple con Claude Mythos

Carta de Presentación de red.anthropic.com

La importancia de Claude Mythos Preview para la ciberseguridad

Visita WikicharliE La Enciclopedia Virtual de Chile

Estados Unidos propone botón para apagar la IA antes de que nos destruya o descontrole

1Password permitirá que la IA Claude pueda usar tus credenciales guardadas

Manifestantes en contra OpenAI, Anthropic y Google DeepMind exigiendo una pausa en el desarrollo de IA

Gartner pone la alerta de que la IA agéntica amenaza 234.000 millones del SaaS (Software como Servicio)

Estados Unidos propone botón para apagar la IA antes de que nos destruya o descontrole

Anthropic pagará una fortuna a autores por usar sus libros sin permiso para entrenar a Claude

Anthropic compró y destruyó millones de libros para entrenar a Claude

Claude Mythos, un modelo entrenado para programar y peligroso por accidente

El modelo que se escapó y mandó un email él solo

Qué va a hacer Apple con Claude Mythos

Carta de Presentación de red.anthropic.com

La importancia de Claude Mythos Preview para la ciberseguridad

Más historias

Otras Noticias