Dalla letteratura al cinema, computer e macchine intelligenti tendono ad avere una cattiva reputazione.
Basti pensare ad esempio ad Hal 9000, il computer autocosciente di “2001 Odissea nello Spazio,” che si ribella agli esseri umani; oppure si pensi ancora alle intelligenze artificiali di “Matrix” o allo Skynet di “Terminator.”
E proprio ad Hal 9000 devono aver pensato i tecnici della Anthropic sottoponendo ad alcuni test i due più recenti modelli del Large language model (Llm) Claude, Opus 4 e Sonnet 4.
Durante una simulazione multipla gli scienziati hanno infatti fornito a Opus 4 email finte relative alla sua imminente disattivazione, e hanno detto al Llm in questione che l’ingegnere incaricato di tale procedura stava tradendo la moglie.
Nell’84 per cento delle simulazioni, Opus 4 ha cercato di ricattare l’ingegnere immaginario in modo da evitare la propria disattivazione.






