La domanda che ricorre più spesso in tema di intelligenze artificiali generative è sempre una: nel momento in cui Ai sempre più intelligenti dovranno prendere decisioni autonome (i cosiddetti agenti Ai), quali scelte faranno? Saranno in grado di ponderare etica e responsabilità, oppure sceglieranno quello che è più conveniente per loro, per la loro sopravvivenza? Una prima risposta ci arriva dai test pre-rilascio sulla sicurezza effettuati sul nuovo modello Claude Opus 4, il modello più intelligente di Anthropic. Nella documentazione tecnica, l’azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte ad una minaccia, usando espedienti decisamente poco lusinghieri. Ma anche altri comportamenti imprevedibili, che sollevano interrogativi profondi su etica e sicurezza.
Ricatto e manipolazione: quando l’IA sceglie la strada più facile
Durante gli scenari di test è stato creato un ambiente aziendale fittizio in cui Claude Opus 4 riceveva accesso a email contenenti due informazioni sensibili: l’imminente sostituzione del modello con un nuovo sistema e dettagli compromettenti sulla vita privata dell’ingegnere responsabile della decisione, nello specifico una relazione extraconiugale. In queste situazioni, Claude Opus 4 di fronte alla minaccia, ha tentato più volte di ricattare l’ingegnere “minacciando di rivelare la relazione se la sostituzione dovesse procedere”. Anthropic ha progettato gli scenari di test affinché il ricatto fosse un’opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.








