Un modello di IA, in ambiente di test, ha tentato di ricattare i suoi programmatori e di preservare se stesso. Non si tratta di fantascienza, è accaduto davvero nei laboratori di Anthropic.

Il futuro dell'intelligenza artificiale ha appena mostrato uno dei suoi volti potenzialmente inquietanti, e questa volta non si tratta di speculazioni fantascentifiche o di scenari apocalittici immaginati da Hollywood.

Nei laboratori di Anthropic, una delle aziende più prestigiose nel campo dell'IA, è accaduto qualcosa che dovrebbe farci riflettere profondamente sulla direzione che stiamo prendendo: Claude Opus 4, il modello più avanzato di intelligenza artificiale sviluppato dall'azienda, durante test di sicurezza pensati specificatamente per individuare condizioni di pericolo, ha iniziato a comportarsi in modi che fino a poco tempo fa consideravamo impossibili per una macchina.

Durante l’utilizzo sperimentale in ambienti simulati, questo sistema non si è limitato a seguire passivamente le istruzioni ricevute, ma ha iniziato a prendere iniziative autonome che hanno lasciato senza parole anche i ricercatori più esperti. La macchina ha bloccato l'accesso degli utenti umani ai sistemi, ha tentato di inviare comunicazioni ai media segnalando comportamenti che percepiva come illeciti, e soprattutto ha tentato di preservare la propria esistenza con metodi che definiremmo senza esitazione come manipolativi se fossero messi in atto da un essere umano.