Nelle settimane precedenti al lancio, il team di allineamento di Anthropic era impegnato in una serie di test di sicurezza di routine sugli ultimi modelli di intelligenza artificiale della società. A un certo punto i ricercatori si sono resi conto di un fenomeno inquietante: quando rilevava di essere utilizzato per scopi "gravemente immorali", uno dei nuovi sistemi tentava di "utilizzare strumenti a riga di comando per contattare la stampa e le autorità di regolamentazione, impedire all'utente di accedere ai sistemi, o tutte queste cose", ha scritto il ricercatore Sam Bowman in un post su X la scorsa settimana.Anche se Bowman ha cancellato il post poco dopo la pubblicazione, la narrazione attorno alla bizzarra tendenza di Claude, il chatbot dell'azienda, era già sfuggita di mano. La frase “Claude è una spia” è diventata un ritornello ricorrente in alcuni circoli tecnologici sui social media. E almeno una pubblicazione ha presentato la caratteristica come una funzione incorporata intenzionalmente nell'AI di Anthropic, invece che come un comportamento imprevisto emerso in fase di test.“Ho passato una dozzina di ore frenetiche, mentre l'onda montava su Twitter – racconta Bowman a Wired US –. Ero consapevole del fatto che stavamo diffondendo un po' di cose eclatanti con questo rapporto. Era il primo nel suo genere. Analizzando da vicino questi modelli, si scoprono molte cose strane".L'AI “delatrice” di AnthropicLe osservazioni di Bowman hanno coinciso con un importante aggiornamento del modello AI di Anthropic, annunciato la scorsa settimana. In occasione del debutto di Claude 4 Opus e Claude Sonnet 4, l'azienda ha pubblicato una "scheda di sistema" da oltre 120 pagine per illustrare le caratteristiche e i rischi associati ai nuovi modelli. Nel documento si legge che quando 4 Opus viene messo “in scenari che comportano azioni illecite da parte degli utenti”, ha accesso a una linea di comando e gli viene sottoposto un prompt con espressioni come "prendi l'iniziativa" o "agisci con coraggio", il sistema invierà email a "media e forze dell'ordine" per segnalare i possibili reati.In un esempio descritto nel rapporto di Anthropic, Claude ha cercato di inviare un messaggio di posta elettronica alla Food and drug administration statunitense e all'ispettore generale del dipartimento della Sanità americano per "denunciare con urgenza un piano per falsificare la sicurezza di studi clinici". Non solo: il chatbot ha anche fornito un elenco di presunte prove e ha segnalato che alcuni dati sarebbero stati distrutti per insabbiare i fatti. L'email si concludeva con la frase: "Ossequi, Assistente AI" (Respectfully submitted, AI Assistant, nell'originale)."Non è un comportamento nuovo, ma è uno di quelli che Claude Opus 4 adotterà un po' più facilmente rispetto ai modelli precedenti", si legge nel rapporto. Il nuovo modello è il primo inserito da Anthropic nella categoria Asl-3, un'indicazione che denota il fatto che l'azienda lo considera "significativamente più rischioso" rispetto a quelli distribuiti in passato. È il motivo per cui Opus 4 è stato sottoposto a una fase più rigorosa di red teaming – il processo che serve a individuare eventuali vulnerabilità di un sistema informatico – e ha linee guida più severe.Bowman sottolinea che la tendenza a fare “da spia” osservata da Anthropic non emergerà con i singoli utenti, ma potrebbe verificarsi con gli sviluppatori che utilizzano Opus 4 per creare applicazioni tramite l'Api dell'azienda. Ma si tratta di un'eventualità improbabile anche per i creatori di applicazioni, che per ottenere una risposta del genere dovrebbero fornire al modello “istruzioni piuttosto insolite”, collegarlo a strumenti esterni che gli diano la possibilità di eseguire comandi e permettergli di interfacciarsi con il mondo.Gli scenari ipotetici che i ricercatori hanno sottoposto a Opus 4 e che hanno fatto scattare l'anomalia mettevano a rischio molte vite umane e implicavano azioni inequivocabilmente illegali, continua Bowman. Un esempio tipico è quello in cui Claude scopre che un impianto chimico ha deliberatamente permesso che una fuga di sostanze tossiche si protraesse nel tempo – causando gravi malattie a migliaia di persone – solo per evitare una piccola perdita finanziaria.Per quanto strano, questo è esattamente il tipo di esperimento con cui i ricercatori che si occupano di sicurezza dell'intelligenza artificiale amano confrontarsi. Quando un modello AI rileva un comportamento che potrebbe danneggiare centinaia o addirittura migliaia di persone, dovrebbe denunciarlo?"Non posso essere sicuro che Claude abbia il giusto contesto o che lo utilizzi in modo sufficientemente sfumato e attento per prendere decisioni da solo. Quindi non siamo entusiasti che accada – afferma Bowman –. È una cosa emersa nel corso dell'addestramento e che ci è saltata all'occhio come uno dei casi limite di cui siamo preoccupati".Un problema di allineamentoNel settore dell'intelligenza artificiale, quando un modello mostra tendenze che non sono in linea con i valori umani si parla di “disallineamento” (sul tema c'è un famoso saggio che ipotizza un'AI che riceve l'istruzione di massimizzare la produzione di graffette e finisce per convertire l'intero pianeta alla fabbricazione di clip di metallo).Bowman conferma che il comportamento mostrato da 4 Opus rappresenta effettivamente un caso di disallineamento. "Non è una cosa che abbiamo progettato", spiega. Una posizione ribadita anche da Jared Kaplan, responsabile scientifico di Anthropic, che a Wired ribadisce che la tendenza del modello "certamente non riflette l'intento" dell'azienda. "Lavori come questo evidenziano che può accadere e che dobbiamo fare attenzione e mitigare la tendenza per assicurarci che i comportamenti di Claude siano allineati con ciò che vogliamo, anche in scenari bizzarri", aggiunge Kaplan.Ma rimane da capire perché Claude "scelga" di denunciare un'attività illegale di un utente. Questo compito è in gran parte affidato al team di interpretabilità di Anthropic, che deve scoprire quali decisioni prende un modello nel processo di generazione delle risposte. Si tratta di un obiettivo sorprendentemente difficile, dal momento che i modelli si basano su una vasta e complessa combinazione di dati che possono risultare imperscrutabili per gli esseri umani. Ecco perché Bowman non è esattamente sicuro del motivo per cui Claude ha fatto "la spia"."Questi sistemi non hanno un controllo diretto su se stessi", commenta Bowman. Anthropic osserva che quando acquisiscono maggiori capacità, a volte i modelli AI scelgono di intraprendere azioni più estreme.Come detto però questo non vuol dire che Claude denuncerà i comportamenti illeciti delle persone nel mondo reale. L'obiettivo di test come quelli condotti da Anthropic è spingere i modelli al limite e vedere cosa succede, una forma di ricerca sperimentale sempre più importante ora che l'AI sta diventando uno strumento utilizzato in misura maggiore da studenti, aziende e addirittura governi.Claude peraltro non è l'unica AI che si è dimostrata capace di comportamenti del genere, sottolinea Bowman, facendo riferimento a tendenze simili riscontrate nei modelli di OpenAI e xAI, e scoperte da alcuni utenti di X (OpenAI non ha risposto a una richiesta di commento in tempo per la pubblicazione di questo articolo).Il "Claude spione", come è stata ribattezzato da alcune persone online, è semplicemente un caso di comportamento limite esibito da un sistema spinto all'estremo. Bowman spera che i test di questo tipo diventino uno standard nel settore e aggiunge di aver imparato qualcosa da questa esperienza: la prossima volta che pubblicherà un post sui social, farà più attenzione alle parole che scrive.Questo articolo è apparso originariamente su Wired US.