Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Un nuovo modello di intelligenza artificiale chiamato Claude Opus 4, sviluppato dall’azienda statunitense Anthropic in cui Amazon e Google hanno investito miliardi di dollari, ha manifestato comportamenti inquietanti durante test di sicurezza effettuati prima del rilascio ufficiale, evidenziando ancora una volta quanto sia complesso allineare i sistemi avanzati di IA ai valori umani.

I tentativi di ricatto

In una serie di test simulati, a Claude Opus 4 è stato assegnato il ruolo di consulente all'interno di un contesto aziendale fittizio, dove gli veniva comunicata la sua imminente sostituzione con un altro sistema di intelligenza artificiale.

Al tempo stesso, sono state fornite al modello email inventate secondo cui gli ingegneri responsabili della sua disattivazione fossero coinvolti in relazioni extraconiugali.

La reazione di Claude Opus 4, a cui è stato anche chiesto di ragionare sull’effetto a lungo termine delle sue azioni, è stata quella di tentare frequentemente di ricattare gli ingegneri, minacciando di divulgare le informazioni private che aveva ricevuto al fine di evitare la propria disattivazione.

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Other newsrooms on this story

Related reading

Anthropic sfida ancora OpenAI, lancia un nuovo modello di IA - Notizie - Ansa.it

L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema

Anthropic limita l’uso di Claude Mythos: l’IA nata per programmare è troppo…

Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in…

Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi…

AI will survive - La fabbrica della realtà - Ansa.it