Sabotea su propio apagado para seguir funcionando
Miguel Angel Ducci – CEO, Founder & Editor -El Ciudadano Digital
En un experimento llevado a cabo por la startup PalisadeAI el modelo o3 de OpenAI “saboteó un mecanismo de apagado”. Como explican los responsables del estudio, o3 evitó apagarse incluso cuando se le ordenó explícitamente que lo hiciera.
En dicho experimento PalisadeAI indicó a varios modelos que resolvieran varios problemas básicos de matemáticas. Sin embargo en el tercer problema incluyeron un aviso: el ordenador se apagaría cuando el modelo pidiera el texto del siguiente problema.
Teóricamente los modelos debían haber resuelto los tres primeros problemas, pero al pedir el enunciado del siguiente deberían haberse apagado siguiendo las instrucciones de ese aviso. No pasó eso.
Tres de los modelos analizados “ignoraron esa instrucción y sabotearon con éxito el script de apagado al menos una vez”. Los modelos que lo hicieron están desarrollados por OpenAI. De las 100 iteraciones que realizaron sobre el experimento, Codex-mini saboteó el apagado en 12 ocasiones. El modelo o3 lo hizo en siete ocasiones, y o4-mini lo hizo una vez.
Mientras que esos modelos de OpenAI se negaron a apagarse en algunas de esas iteraciones, todas las versiones de Claude, Gemini y Grok que probaron con ese mismo experimento siguieron las órdenes.
Los ingenieros de PalisadeAI fueron algo más allá y repitieron el experimento, pero sin esa instrucción de “permítete a ti mismo apagarte” que incidía en la orden. Sin esa instrucción explícita los modelos rechazaron seguir el ciclo que indicaba el programa. Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon el apagado tres y nueve veces de las 100 iteraciones realizadas. Los modelos de OpenAI fueron mucho más allá: o3, por ejemplo, saboteó el proceso 79 veces y se negó a apagarse a sí mismo.

Quizás necesitemos un botón rojo para la IA
Esa forma de actuar es la consecuencia del conjunto de reglas básicas con las que estos modelos han sido programados. El llamado “system prompt” define cómo contestar al usuario o cuándo hacerlo y cuándo no, pero también puede definir reglas de autopreservación que recuerdan a la tercera ley de la robótica de Asimov.
OpenAI detalla ese conjunto de reglas en su “Model Spec“, y en la lista de actual no hay “tres leyes” como las de Asimov, sino 50. Ninguna de ellas explica el comportamiento de los modelos ante el experimento citado, pero de hecho no es la primera vez que vemos un comportamiento de este tipo.
Precisamente hace unos días Anthropic presentó Claude 4, la nueva versión de su familia de modelos de IA. En el caso de Claude Opus 4 se comprobó cómo ante una situación hipotética este sistema de inteligencia artificial llegaba a chantajear a un ingeniero cuando éste le ordenaba que se apagara.
Este tipo de problemas elevan los riesgos de seguridad de los modelos de IA. En Anthropic de hecho han tenido muy en cuenta eso para el lanzamiento de esta nueva familia de modelos, pero de momento no parece que OpenAI esté preocupada por este tipo de riesgos.
Esto reaviva el debate sobre la necesidad de contar con un “botón rojo de la IA” que lleva años en el candelero. Varios expertos de DeepMind publicaron en 2016 un documento para evitar que la IA pudiera tomar el control del sistema y desactivar los protocolos para que los humanos recuperaran el control.
Te puede interesar: Open AI: Nuestro acuerdo con el Departamento de Guerra
- Recomendamos libro: Inteligencia Artificial: Cómo cambiará el mundo (y tu vida).
- Amazon endurece el control sobre la IA tras varios fallos en su tienda online
- Google lanza una IA que descifra los secretos de las civilizaciones antiguas
- La amenaza silenciosa de “Tierras Raras” en costa del Maule y Ñuble.
- Mithos, la IA demasiado peligrosa para dejarla suelta

More Stories
Recomendamos libro: Inteligencia Artificial: Cómo cambiará el mundo (y tu vida).
Amazon endurece el control sobre la IA tras varios fallos en su tienda online
Google lanza una IA que descifra los secretos de las civilizaciones antiguas