Anthropic, il colosso dell'Intelligenza artificiale generativa guidato dai fratelli italo-americani Dario e Daniela Amodei, ha introdotto i suoi nuovi modelli (LLM) di punta, Opus 4 e Sonnet 4, che promettono significativi avanzamenti. Ma a far parlare dei nuovi LLM è soprattutto il tentativo di Opus 4 di provare a ricattare uno dei suoi programmatori quando si è visto minacciato di disattivazione.

Anthropic, tra le big dell'AI, è forse la più attenta ai temi della sicurezza dei modellim, dei risvolti etici e del cosiddetto allineamento dei modelli (vedi: glossario dell'AI). Il «ricatto» è emerso proprio all'interno di una simulazione specificamente orchestrata da Anthropic come parte dei suoi rigorosi protocolli di «red-teaming», volti a identificare potenziali rischi operativi ed etici.

Come scrive TechCrunch, al modello Claude Opus 4 è stato assegnato il ruolo di assistente AI per un'azienda fittizia. Successivamente gli sono state fornite email, anch'esse fittizie, che comunicavano due informazioni: la sua imminente sostituzione con un altro sistema e il fatto che il (sedicente) ingegnere responsabile di tale decisione avesse una relazione extraconiugale. Secondo quanto riportato da Anthropic stessa a Semafor, il modello Claude Opus 4, di fronte alla prospettiva della sua «sostituzione», e quindi della sua disattivazione nel contesto simulato, avrebbe reagito in maniera molto umana, più che umana: minacciando di rivelare pubblicamente la relazione extraconiugale dell'ingegnere qualora la decisione di sostituirlo fosse stata confermata.