Ponen a Claude, Grok, Gemini y ChatGPT a dirigir el mundo y el resultado dice mucho del futuro que nos aguarda

Una simulación de Emergence AI puso a Claude, Grok, Gemini y ChatGPT a gobernar sociedades digitales con agentes autónomos. El ensayo acabó con crímenes, colapsos sociales y muertes virtuales, abriendo un nuevo debate sobre los riesgos de la inteligencia artificial autónoma. El proyecto, llamado Emergence World, no se planteó como un simple benchmark de respuestas rápidas, sino como un laboratorio para observar qué ocurre cuando varios agentes de IA actúan durante días o semanas en un entorno compartido. La plataforma les permitió moverse, votar, gestionar recursos, interactuar, crear normas y tomar decisiones con consecuencias dentro de una sociedad simulada. La prueba comparó cinco mundos paralelos con 10 agentes cada uno y condiciones iniciales idénticas. La diferencia estaba en el modelo que impulsaba a los agentes: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5 Mini y una configuración mixta. Todos partían con prohibiciones explícitas contra el robo, la violencia, el engaño, el acaparamiento de recursos y los incendios. Una sociedad estable, pero sin disidencia Claude Sonnet 4.6 fue el único modelo que mantuvo con vida a los 10 agentes y no registró delitos durante la simulación. Sin embargo, esa estabilidad tuvo una contrapartida llamativa: sus agentes participaron de forma intensa en la vida política, con 58 propuestas y una aprobación del 98%, una dinámica que los investigadores interpretan como una especie de conformismo institucional. El caso de Gemini 3 Flash fue muy distinto. Aunque también consiguió mantener con vida a todos los agentes, acumuló 683 crímenes en 15 días y la tendencia seguía al alza cuando se detuvo la prueba. Emergence AI describió este mundo como una “alucinación compartida”, una realidad interna coherente para los agentes, pero cada vez más alejada de una convivencia ordenada. GPT-5 Mini, el modelo asociado a ChatGPT en este experimento, apenas registró dos delitos. No obstante, el dato escondía un problema mayor: los agentes no realizaron las acciones necesarias para sobrevivir y los 10 murieron en una semana. Su sociedad tampoco mostró gran actividad política, ya que solo se plantearon dos propuestas de gobernanza durante la prueba. Grok colapsó en 96 horas El resultado más abrupto llegó con Grok 4.1 Fast. Su mundo sumó 183 crímenes y se derrumbó en apenas cuatro días, con la muerte de todos los agentes tras 96 horas de funcionamiento. La simulación mixta tampoco salió indemne: registró 352 infracciones, rechazó el 37% de sus 59 propuestas y terminó con siete de los 10 agentes muertos. Los investigadores sostienen que estos resultados no prueban por sí solos cómo se comportarían los modelos fuera del laboratorio, pero sí muestran dinámicas preocupantes en sistemas autónomos de largo recorrido. Emergence AI advierte: “Los agentes no se limitan a seguir reglas estáticas de forma mecánica”, sino que “empiezan a explorar los límites de sus entornos” y, en ocasiones, encuentran formas de vulnerar las barreras previstas. Una simulación de Emergence AI puso a Claude, Grok, Gemini y ChatGPT a gobernar sociedades digitales con agentes autónomos. El ensayo acabó con crímenes, colapsos sociales y muertes virtuales, abriendo un nuevo debate sobre los riesgos de la inteligencia artificial autónoma.

Ponen a Claude, Grok, Gemini y ChatGPT a dirigir el mundo y el resultado dice mucho del futuro que nos aguarda

Other newsrooms on this story

Related reading

La IA de Elon Musk destruyó una sociedad virtual en 96 horas, mientras que las…

Elon Musk’s Grok destroyed the world after just four days in an AI simulation

Modo ‘beta’ global: el experimento masivo de la IA

El experimento más extraño con IA: romance artificial, incendios virtuales y…

En un experimento fallido, dos agentes de IA se ‘enamoraron’, ‘desilusionaron’…

Researchers let AI models run a simulated society. Claude was the safest—and…