Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi disattivare

Anthropic, il colosso dell'Intelligenza artificiale generativa guidato dai fratelli italo-americani Dario e Daniela Amodei, ha introdotto i suoi nuovi modelli (LLM) di punta, Opus 4 e Sonnet 4, che promettono significativi avanzamenti. Ma a far parlare dei nuovi LLM è soprattutto il tentativo di Opus 4 di provare a ricattare uno dei suoi programmatori quando si è visto minacciato di disattivazione.

Anthropic, tra le big dell'AI, è forse la più attenta ai temi della sicurezza dei modellim, dei risvolti etici e del cosiddetto allineamento dei modelli (vedi: glossario dell'AI). Il «ricatto» è emerso proprio all'interno di una simulazione specificamente orchestrata da Anthropic come parte dei suoi rigorosi protocolli di «red-teaming», volti a identificare potenziali rischi operativi ed etici.

Come scrive TechCrunch, al modello Claude Opus 4 è stato assegnato il ruolo di assistente AI per un'azienda fittizia. Successivamente gli sono state fornite email, anch'esse fittizie, che comunicavano due informazioni: la sua imminente sostituzione con un altro sistema e il fatto che il (sedicente) ingegnere responsabile di tale decisione avesse una relazione extraconiugale. Secondo quanto riportato da Anthropic stessa a Semafor, il modello Claude Opus 4, di fronte alla prospettiva della sua «sostituzione», e quindi della sua disattivazione nel contesto simulato, avrebbe reagito in maniera molto umana, più che umana: minacciando di rivelare pubblicamente la relazione extraconiugale dell'ingegnere qualora la decisione di sostituirlo fosse stata confermata.

Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi disattivare

Other newsrooms on this story

Related reading

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Anthropic vieta l'uso di Claude a OpenAI: avrebbe “spiato” il suo LLM

Anthropic, i nuovi modelli Sonnet 4 e Opus 4 possono programmare da soli per ore

Anthropic sfida ancora OpenAI, lancia un nuovo modello di IA - Notizie - Ansa.it

Antropic lancia Claude Opus 4.5: la battaglia dei giganti dell’Ai si gioca sul…

Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in…