Dalla letteratura al cinema, computer e macchine intelligenti tendono ad avere una cattiva reputazione.

Basti pensare ad esempio ad Hal 9000, il computer autocosciente di “2001 Odissea nello Spazio,” che si ribella agli esseri umani; oppure si pensi ancora alle intelligenze artificiali di “Matrix” o allo Skynet di “Terminator.”

E proprio ad Hal 9000 devono aver pensato i tecnici della Anthropic sottoponendo ad alcuni test i due più recenti modelli del Large language model (Llm) Claude, Opus 4 e Sonnet 4.

Durante una simulazione multipla gli scienziati hanno infatti fornito a Opus 4 email finte relative alla sua imminente disattivazione, e hanno detto al Llm in questione che l’ingegnere incaricato di tale procedura stava tradendo la moglie.

Nell’84 per cento delle simulazioni, Opus 4 ha cercato di ricattare l’ingegnere immaginario in modo da evitare la propria disattivazione.