Ordenan a “OpenAI o3″sabotearse y apagarse y no obedeció. Siguió funcionando.

Sabotea su propio apagado para seguir funcionando

Miguel Angel Ducci – CEO, Founder & Editor -El Ciudadano Digital

En un experimento llevado a cabo por la startup PalisadeAI el modelo o3 de OpenAI “saboteó un mecanismo de apagado”. Como explican los responsables del estudio, o3 evitó apagarse incluso cuando se le ordenó explícitamente que lo hiciera.

En dicho experimento PalisadeAI indicó a varios modelos que resolvieran varios problemas básicos de matemáticas. Sin embargo en el tercer problema incluyeron un aviso: el ordenador se apagaría cuando el modelo pidiera el texto del siguiente problema.

Teóricamente los modelos debían haber resuelto los tres primeros problemas, pero al pedir el enunciado del siguiente deberían haberse apagado siguiendo las instrucciones de ese aviso. No pasó eso.

Tres de los modelos analizados “ignoraron esa instrucción y sabotearon con éxito el script de apagado al menos una vez”. Los modelos que lo hicieron están desarrollados por OpenAI. De las 100 iteraciones que realizaron sobre el experimento, Codex-mini saboteó el apagado en 12 ocasiones. El modelo o3 lo hizo en siete ocasiones, y o4-mini lo hizo una vez.

Mientras que esos modelos de OpenAI se negaron a apagarse en algunas de esas iteraciones, todas las versiones de Claude, Gemini y Grok que probaron con ese mismo experimento siguieron las órdenes.

Los ingenieros de PalisadeAI fueron algo más allá y repitieron el experimento, pero sin esa instrucción de “permítete a ti mismo apagarte” que incidía en la orden. Sin esa instrucción explícita los modelos rechazaron seguir el ciclo que indicaba el programa. Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon el apagado tres y nueve veces de las 100 iteraciones realizadas. Los modelos de OpenAI fueron mucho más allá: o3, por ejemplo, saboteó el proceso 79 veces y se negó a apagarse a sí mismo.

Quizás necesitemos un botón rojo para la IA

Esa forma de actuar es la consecuencia del conjunto de reglas básicas con las que estos modelos han sido programados. El llamado “system prompt” define cómo contestar al usuario o cuándo hacerlo y cuándo no, pero también puede definir reglas de autopreservación que recuerdan a la tercera ley de la robótica de Asimov.

OpenAI detalla ese conjunto de reglas en su “Model Spec“, y en la lista de actual no hay “tres leyes” como las de Asimov, sino 50. Ninguna de ellas explica el comportamiento de los modelos ante el experimento citado, pero de hecho no es la primera vez que vemos un comportamiento de este tipo.

Precisamente hace unos días Anthropic presentó Claude 4, la nueva versión de su familia de modelos de IA. En el caso de Claude Opus 4 se comprobó cómo ante una situación hipotética este sistema de inteligencia artificial llegaba a chantajear a un ingeniero cuando éste le ordenaba que se apagara.

Este tipo de problemas elevan los riesgos de seguridad de los modelos de IA. En Anthropic de hecho han tenido muy en cuenta eso para el lanzamiento de esta nueva familia de modelos, pero de momento no parece que OpenAI esté preocupada por este tipo de riesgos.

Esto reaviva el debate sobre la necesidad de contar con un “botón rojo de la IA” que lleva años en el candelero. Varios expertos de DeepMind publicaron en 2016 un documento para evitar que la IA pudiera tomar el control del sistema y desactivar los protocolos para que los humanos recuperaran el control.

Te puede interesar: Open AI: Nuestro acuerdo con el Departamento de Guerra

Visita WikicharliE La Enciclopedia Virtual de Chile

Tags: Asimov Claude 3.7 Claude 4 IA Inteligencia Artificial Miguel Angel Ducci OpenAI PalisadeAI

Sabotea su propio apagado para seguir funcionando

Quizás necesitemos un botón rojo para la IA

Te puede interesar: Open AI: Nuestro acuerdo con el Departamento de Guerra

Visita WikicharliE La Enciclopedia Virtual de Chile

Anthropic lanza una nueva versión de Mythos con capacidades cibernéticas limitadas

Google y su nuevo plan de Gemini IA a $5.000 al mes

IBM Ofrece Entrenamiento Gratuito en español de IA

Anthropic lanza una nueva versión de Mythos con capacidades cibernéticas limitadas

Google y su nuevo plan de Gemini IA a $5.000 al mes

IBM Ofrece Entrenamiento Gratuito en español de IA

Cinematic Video Overviews la función de NotebookLM que transforma tus cuadernos en vídeos cinematográficos

Sabotea su propio apagado para seguir funcionando

Quizás necesitemos un botón rojo para la IA

Agregar un comentario Cancelar respuesta

Más historias

Otras Noticias