Le trappole malevoli dell’intelligenza artificiale

Dalla letteratura al cinema, computer e macchine intelligenti tendono ad avere una cattiva reputazione.

Basti pensare ad esempio ad Hal 9000, il computer autocosciente di “2001 Odissea nello Spazio,” che si ribella agli esseri umani; oppure si pensi ancora alle intelligenze artificiali di “Matrix” o allo Skynet di “Terminator.”

E proprio ad Hal 9000 devono aver pensato i tecnici della Anthropic sottoponendo ad alcuni test i due più recenti modelli del Large language model (Llm) Claude, Opus 4 e Sonnet 4.

Durante una simulazione multipla gli scienziati hanno infatti fornito a Opus 4 email finte relative alla sua imminente disattivazione, e hanno detto al Llm in questione che l’ingegnere incaricato di tale procedura stava tradendo la moglie.

Nell’84 per cento delle simulazioni, Opus 4 ha cercato di ricattare l’ingegnere immaginario in modo da evitare la propria disattivazione.

Le trappole malevoli dell’intelligenza artificiale

Other newsrooms on this story

Related reading

L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema

Informazione, trasparenze e buonsenso per affrontare la psicosi da intelligenza…

L'intelligenza artificiale non ragiona, calcola: il vero rischio sta nel modo…

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Blog | L'intelligenza artificiale deve far paura, ma per cose importanti:…

Contrordine compagni, l'IA fa male - La fabbrica della realtà - Ansa.it