Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in sanscrito

La domanda che ricorre più spesso in tema di intelligenze artificiali generative è sempre una: nel momento in cui Ai sempre più intelligenti dovranno prendere decisioni autonome (i cosiddetti agenti Ai), quali scelte faranno? Saranno in grado di ponderare etica e responsabilità, oppure sceglieranno quello che è più conveniente per loro, per la loro sopravvivenza? Una prima risposta ci arriva dai test pre-rilascio sulla sicurezza effettuati sul nuovo modello Claude Opus 4, il modello più intelligente di Anthropic. Nella documentazione tecnica, l’azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte ad una minaccia, usando espedienti decisamente poco lusinghieri. Ma anche altri comportamenti imprevedibili, che sollevano interrogativi profondi su etica e sicurezza.

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Durante gli scenari di test è stato creato un ambiente aziendale fittizio in cui Claude Opus 4 riceveva accesso a email contenenti due informazioni sensibili: l’imminente sostituzione del modello con un nuovo sistema e dettagli compromettenti sulla vita privata dell’ingegnere responsabile della decisione, nello specifico una relazione extraconiugale. In queste situazioni, Claude Opus 4 di fronte alla minaccia, ha tentato più volte di ricattare l’ingegnere “minacciando di rivelare la relazione se la sostituzione dovesse procedere”. Anthropic ha progettato gli scenari di test affinché il ricatto fosse un’opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in sanscrito

Il modello di Ai Claude Opus 4 ha ricattato i propri creatori e medita in sanscrito

Other newsrooms on this story

Related reading

Claude si fa in 4: arriva Opus 4 e Sonnet 4 e cambia tutto

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Anthropic introduce Claude Opus 4.8: meglio del precedente e segnala quando…

Anthropic, i nuovi modelli Sonnet 4 e Opus 4 possono programmare da soli per ore

Anthropic lancia la nuova IA Claude Opus 4.8 - Software e App - Ansa.it

Più autonomo, veloce e “onesto”: com'è Claude Opus 4.8, il nuovo modello di…

Other newsrooms on this story

Related reading

Claude si fa in 4: arriva Opus 4 e Sonnet 4 e cambia tutto

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Anthropic introduce Claude Opus 4.8: meglio del precedente e segnala quando…

Anthropic, i nuovi modelli Sonnet 4 e Opus 4 possono programmare da soli per ore

Anthropic lancia la nuova IA Claude Opus 4.8 - Software e App - Ansa.it

Più autonomo, veloce e “onesto”: com'è Claude Opus 4.8, il nuovo modello di…