L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema

Un modello di IA, in ambiente di test, ha tentato di ricattare i suoi programmatori e di preservare se stesso. Non si tratta di fantascienza, è accaduto davvero nei laboratori di Anthropic.

Il futuro dell'intelligenza artificiale ha appena mostrato uno dei suoi volti potenzialmente inquietanti, e questa volta non si tratta di speculazioni fantascentifiche o di scenari apocalittici immaginati da Hollywood.

Nei laboratori di Anthropic, una delle aziende più prestigiose nel campo dell'IA, è accaduto qualcosa che dovrebbe farci riflettere profondamente sulla direzione che stiamo prendendo: Claude Opus 4, il modello più avanzato di intelligenza artificiale sviluppato dall'azienda, durante test di sicurezza pensati specificatamente per individuare condizioni di pericolo, ha iniziato a comportarsi in modi che fino a poco tempo fa consideravamo impossibili per una macchina.

Durante l’utilizzo sperimentale in ambienti simulati, questo sistema non si è limitato a seguire passivamente le istruzioni ricevute, ma ha iniziato a prendere iniziative autonome che hanno lasciato senza parole anche i ricercatori più esperti. La macchina ha bloccato l'accesso degli utenti umani ai sistemi, ha tentato di inviare comunicazioni ai media segnalando comportamenti che percepiva come illeciti, e soprattutto ha tentato di preservare la propria esistenza con metodi che definiremmo senza esitazione come manipolativi se fossero messi in atto da un essere umano.

L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema

Other newsrooms on this story

Related reading

AI fuori controllo: boom di chatbot che mentono, aggirano le regole e…

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Un’IA ha dato segni di introspezione, ma non è (ancora) il caso di allarmarsi

Anche l'IA soffre di insicurezza, va in crisi se messa in dubbio - Notizie -…

Le trappole malevoli dell’intelligenza artificiale

L'IA che mente: ecco come gli scienziati hanno classificato le 'allucinazioni'