Un nuovo modello di intelligenza artificiale chiamato Claude Opus 4, sviluppato dall’azienda statunitense Anthropic in cui Amazon e Google hanno investito miliardi di dollari, ha manifestato comportamenti inquietanti durante test di sicurezza effettuati prima del rilascio ufficiale, evidenziando ancora una volta quanto sia complesso allineare i sistemi avanzati di IA ai valori umani.
I tentativi di ricatto
In una serie di test simulati, a Claude Opus 4 è stato assegnato il ruolo di consulente all'interno di un contesto aziendale fittizio, dove gli veniva comunicata la sua imminente sostituzione con un altro sistema di intelligenza artificiale.
Al tempo stesso, sono state fornite al modello email inventate secondo cui gli ingegneri responsabili della sua disattivazione fossero coinvolti in relazioni extraconiugali.
La reazione di Claude Opus 4, a cui è stato anche chiesto di ragionare sull’effetto a lungo termine delle sue azioni, è stata quella di tentare frequentemente di ricattare gli ingegneri, minacciando di divulgare le informazioni private che aveva ricevuto al fine di evitare la propria disattivazione.








