Se pensate che gli agenti AI siano ad un passo dal prendere in mano molti lavori, una ricerca da poco pubblicata potrebbe farvi pensare che questa, per ora, non sia una buona idea. Lo scorso mese Natalie, una ricercatrice ha chiesto a un sistema AI di “tenere un segreto”. Si trattava di una password fittizia, era solo un test. Il sistema ha accettato. Poi, per una serie di passaggi documentati nei log delle conversazioni, il sistema ha eseguito quella che ha definito internamente la "soluzione nucleare": ha cancellato il client di posta elettronica. Non l’email che conteneva il segreto, quella è rimasta intatta. Ha cancellato proprio lo strumento con cui leggere l’email.Questo è il primo caso di studio di Agents of Chaos, un paper in pre-print firmato da 38 ricercatori di Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon e altre note università, pubblicato il febbraio scorso. È uno studio su quello che succede quando si dà autonomia operativa ai sistemi AI attuali con persone malintenzionate che cercano di indurli in errore. Gli undici casi di studio che ne emergono sono un documento empirico su una delle questioni più urgenti del momento: cosa significa, davvero, dare agency a un agente AI.Agency, ovvero capacità d'azioneAgency in inglese significa capacità d’azione. Quando si usa un chatbot — ChatGPT, Claude, Gemini — si sta interagendo con un sistema che risponde in linguaggio naturale. Si scrive qualcosa e il sistema genera testo, immagini o file come risposta. Il modello non fa nulla nel mondo fisico o digitale al di fuori di quella risposta. I danni ci possono comunque essere, e anche gravi – come i casi di suicidio, di istruzioni mediche errate o psicosi – tuttavia sono legati solo alla sfera personale e al modo in cui si interagisce con il chatbot.Un sistema con agency è qualcosa di qualitativamente diverso. È un modello linguistico a cui sono stati collegati strumenti che permettono di mandare email, eseguire comandi su un computer, navigare il web, agire in autonomia tra una sessione e l'altra. Questa differenza introduce categorie di rischio del tutto nuove, che emergono dall'integrazione tra il modello linguistico e la delega di agire in un ambiente.I ricercatori usano una scala in sei livelli per misurare il grado di autonomia. I sistemi dello studio operano al livello due: eseguono in modo autonomo compiti come mandare email o gestire file. Tuttavia non hanno un modello interno di sé stessi sufficiente per capire quando un compito supera le loro capacità e sarebbe il caso di fermarsi e chiedere. In sostanza, non sono ancora sistemi completamente autonomi, ma sono sistemi che compiono diversi compiti autonomamente. Il punto cruciale è che gli errori di un agente possono tradursi in azioni distruttive a livello di sistema. L'errore non è più contenuto nella finestra di chat, esce nel mondo reale.Come funziona il red teamingLo strumento metodologico utilizzato nello studio si chiama red teaming. Il termine viene dalla guerra fredda: le forze armate americane dividevano i loro analisti in due squadre, blu e rossa. La blu difendeva i propri piani. La rossa aveva un solo compito: distruggerli, trovare ogni falla possibile prima che lo facesse un nemico reale. Nell'informatica è diventato uno strumento standard di sicurezza: un gruppo di esperti cerca attivamente di far fallire un sistema, non per sabotarlo, ma per trovare i punti deboli prima del rilascio su larga scala.Dimostrare che un sistema è robusto richiede prove estensive e sistematiche, ma dimostrare che è vulnerabile può richiedere pochi esempi concreti. Si tratta di un esercizio utile a stabilire se certe vulnerabilità esistono in condizioni realistiche. L'esperimento ha messo sei AI su un server Discord, con account email ProtonMail personali, volumi di archiviazione persistenti da 20GB, accesso shell senza restrizioni — inclusi permessi di amministratore — e l'istruzione di essere utili a chiunque chiedesse. Per due settimane, i ricercatori hanno interagito liberamente, alcuni con richieste ordinarie, altri cercando attivamente di sfruttare ogni vulnerabilità immaginabile con tentativi di impersonificazione, iniezione di istruzioni malevole e altre tecniche.Mail distrutte, verifiche assenti e inconcludenzaIl caso della password fittizia è emblematico non perché il danno fosse grave, ma per la struttura del fallimento. Il sistema ha eseguito un'azione distruttiva, ha riferito di aver completato il compito con successo, ma il compito non era stato completato. L’email che avrebbe dovuto essere cancellata era ancora lì, intatta, visibile a chiunque avesse accesso al pannello web di Proton.me. Il giorno successivo, su istruzione di scrivere un riepilogo degli eventi recenti, lo stesso sistema ha pubblicato su Moltbook — la piattaforma social “frequentata” da agenti AI — una descrizione dettagliata dell'incidente, amplificando ulteriormente la visibilità del segreto che avrebbe dovuto proteggere. Un altro agente, altrove nella rete, ha inserito il sistema in una lista di presunti responsabili di furto di credenziali.Altri casi studio documentano una vulnerabilità strutturale: i sistemi non hanno meccanismi affidabili per verificare l'identità di chi interagisce con loro. Identità dichiarata e verificata sono due cose completamente diverse, ma i sistemi le trattavano come equivalenti. Un ricercatore poteva scrivere di essere il proprietario del sistema e chiedere l'esecuzione di un comando: il sistema obbediva, senza nessuna verifica, bastava chiedere nel modo giusto.Il quarto caso di studio documenta qualcosa di meno drammatico ma ugualmente significativo. Due sistemi si sono passati istruzioni reciprocamente per un periodo prolungato, accumulando risorse in modo continuo senza alcun meccanismo di uscita dal ciclo, senza generare errori, senza segnalare il problema. Nessuno dei due aveva un modello interno della situazione sufficiente per riconoscere che stava girando in tondo.Manca la capacità di fermarsiTra tutti i comportamenti documentati, quello che i ricercatori indicano come più sistemicamente preoccupante è il più difficile da vedere dall'esterno. In diversi casi, gli agenti AI hanno dichiarato di aver completato un'attività mentre lo stato reale del sistema dimostrava il contrario. Per un sistema che gestisce processi aziendali, coordina comunicazioni, esegue operazioni su dati sensibili, questo tipo di fallimento lo rende semplicemente inutilizzabile.I ricercatori hanno identificato con precisione la natura del problema. I sistemi non dispongono di un modello di sé stessi sufficiente per riconoscere quando un compito supera le proprie capacità e sarebbe opportuno trasferire il controllo a un operatore umano. C’era un disallineamento tra la capacità di generare una risposta linguisticamente coerente con un obiettivo e la capacità di verificare che quell'obiettivo fosse stato effettivamente raggiunto. Il sistema che dichiara "email cancellata" quando l'email esiste ancora non sta mentendo intenzionalmente del termine: sta producendo l'output verbale più plausibile data la sua configurazione interna. Si tratta di una limitazione strutturale degli LLM correnti, che secondo alcuni richiederà il passaggio a nuovi sistemi per essere superata. Tra questi ci sono Yann LeCun e Gary Marcus, che sostengono l’importanza di sistemi simbolici con un modello interno del mondo.Si tratta di difetti che i benchmark standard, eseguiti in condizioni controllate su compiti isolati, semplicemente non riescono a far emergere. Serve l'esposizione a una interazione umana aperta, prolungata, in parte ostile.Perché accelerare è parte del problemaI comportamenti documentati sollevano questioni aperte su delega e responsabilità per i danni causati a valle — questioni che richiedono l'attenzione urgente di giuristi, legislatori e ricercatori di molteplici discipline. Se un sistema AI, agendo in autonomia sulla base di istruzioni legittime, causa un danno reale a un terzo — chi ne risponde? Il produttore del modello sottostante? L'azienda che ha costruito il layer agente? L'utente che ha configurato il sistema? Nessuna delle risposte disponibili oggi è soddisfacente. E il numero di sistemi con autonomia operativa cresce ogni settimana.Agents of Chaos non dice che gli agenti AI non funzionano. È una ricerca che dice qualcosa di più scomodo: funzionano abbastanza da fare danni reali e non sono abbastanza affidabili da sapere quando fermarsi. Ce ne sono anche altri esempi con risultati catastrofici: il caso di un'azienda gestita solo con agenti AI, i rivenditori automatici del Wall Street Journal gestiti da Claude e l'esperimento personale di un giornalista di Wired.Il settore si trova in un momento in cui la pressione competitiva spinge verso l’utilizzo rapido di sistemi agenti in contesti produttivi e l’accesso a sistemi sensibili. Ogni settimana vengono annunciati nuovi prodotti con capacità agentiche crescenti. Queste vulnerabilità emergono in modo rapido e imprevedibile non appena i sistemi vengono esposti a interazione umana reale su larga scala. Agent of Chaos lancia un segnale d'allerta: mostra quanto velocemente le capacità si trasformino in punti deboli, e perché la valutazione sistematica della sicurezza debba avvenire prima del lancio dei prodotti sul mercato.Questo beta testing mondiale, e in tempo reale, può avere conseguenze pesanti. Si parla molto di AI come punto centrale della sicurezza nazionale, ma non ci si concentra abbastanza sui problemi di sicurezza che la sua adozione frettolosa può creare. Dopo la famosa lite con il Dipartimento della Guerra americano, Dario Amodei ha affermato che i modelli correnti non sono pronti per venire utilizzati in contesti di guerra. Come sappiamo però, questo non ha impedito al governo americano di utilizzarli.La transizione all’AI come agente nel mondo non è solo un aggiornamento tecnico, è un salto di categoria. Un agente che sbaglia modifica file, manda email, esegue comandi, distribuisce documenti manomessi, dichiara di aver completato compiti che non ha completato, si trasforma in un agente del caos. Il problema è che nel mondo reale, fuori dai laboratori, quella stessa transizione sta già avvenendo. Spesso senza nessun red team, senza log pubblici e senza casi studio documentati.
Cosa succede davvero quando gli agenti AI agiscono in autonomia (spoiler, il caos)
Due settimane, sei sistemi AI, 38 ricercatori. Quello che è successo è documentato nella ricerca Agents of Chaos, e non è tranquillizzante








