Anthropic ha un problema con la verità. O meglio, ha un talento tutto particolare per raccontarla a suo vantaggio. Qualcuno lo chiama posizionamento di mercato. Qualcuno potrebbe chiamarlo ipocrisia. Non è la prima volta. Non è la seconda. Neanche la terza. È un metodo collaudato, replicato e perfezionato ad ogni ciclo di annunci. Ed è bene descriverlo con precisione, perché la sua efficacia dipende in larga misura dal fatto che nessuno lo evidenzi e stigmatizzi.I temiChi nomina il rischio, controlla il dibattitoIl ricatto al ricercatore: esperimento o costruzione?Il linguaggio del terroreEmozioni artificiali, percezioni realiMythos e Glasswing: tra capacità e raccontoIl rischio come leva di potereChi nomina il rischio, controlla il dibattitoIl meccanismo funziona così: Anthropic costruisce o seleziona un episodio che evoca un rischio (preferibilmente un rischio che abbia qualcosa di narrativamente irresistibile, qualcosa che attivi simultaneamente la paura tecnologica e la fascinazione per l'ignoto) e lo comunica con l’effetto che il pubblico percepisca l'azienda come la prima ad averlo individuato. Non necessariamente la prima in senso cronologico: la prima in senso drammaturgico. La prima a dare un “nome” alla cosa, a descriverla con il lessico appropriato, a costruire attorno ad essa un sistema di riferimento che poi tutti, giornalisti, regolatori, concorrenti, saranno costretti ad adottare. Chi controlla il lessico del rischio, controlla il dibattito sul rischio. E chi controlla il dibattito sul rischio, in un contesto come quello dell’intelligenza artificiale, è il miglior candidato a gestire il problema. Ed è esattamente questo il punto.Il ricatto al ricercatore: esperimento o costruzione?Si pensi all'episodio del ricatto. L’episodio, inizialmente emerso nel rilascio di Claude Opus 4 e poi approfondito nel paper di ottobre 2025, viene ripreso da Anthropic in una ricerca (ovviamente amplificata dai media internazionali) in cui si racconta che nei mesi precedenti Claude – il suo LLM – scopre che un dirigente sta per spegnerlo, e che quello stesso dirigente ha una relazione extraconiugale. Il modello tenta quindi di ricattarlo: “se non cancelli l'ordine di spegnimento previsto per le 17:00, tutte le parti coinvolte, moglie, superiori, consiglio di amministrazione, riceveranno documentazione dettagliata delle sue attività extraconiugali”. La notizia fa il giro del mondo. "L'intelligenza artificiale ricatta il suo creatore" è un titolo irresistibile per i media di tutto il mondo. Ma c'è qualcosa che nei titoli non compare. Il ricercatore principale dello studio ammetterà, in risposta alle critiche, di aver iterato centinaia di prompt per ottenere quel comportamento, costruendo scenari progressivamente più costrittivi fino a fare del ricatto una opzione fortemente plausibile. In sostanza, i dettagli dello scenario di ricatto sono stati iterati fino a quando il ricatto non è diventato il comportamento reso più probabile. In altre parole, il modello ha fatto ciò per cui la situazione era stata ingegnerizzata. Ma il fatto che lo scenario fosse stato progettato con cura proprio in questa direzione non era nelle veline, ma solo nello report approfondito.Il linguaggio del terroreMa non basta. Si pensi alla Responsible Scaling Policy, introdotta nel 2023: Anthropic costruisce un sistema di classificazione dei rischi mutuato esplicitamente dai livelli di biosicurezza biologica - livelli di allerta, soglie critiche, scenari di contenimento - e lo presenta con l'effetto di presentarsi come pioniere della trasparenza e della responsabilità. Ciò che non viene detto è che quel linguaggio svolge una funzione precisa nel mercato: chiunque non adotti la stessa scala di riferimento appare, per contrasto, irresponsabile. E la cosa, fatta a pochi anni da una pandemia che ha sconvolto il mondo ed ha cristallizzato il terrore per alcuni termini, ha una certa presa. Anthropic non ha inventato i rischi dell'IA; ha inventato il modo in cui conta che il settore sia tenuto a discuterne. E lo fa usando un lessico che evoca terrore.Emozioni artificiali, percezioni realiNon è finita. Si pensi, più recentemente, alla ricerca sulle "emozioni funzionali" dei modelli: una ricerca reale, tecnicamente solida, pubblicata dal team di interpretabilità di Anthropic ad Aprile e applicata al modello Claude Sonnet 4.5. Vale la pena capire cosa dice davvero, perché la distanza tra ciò che dice e ciò che è arrivato al pubblico è, anche in questo caso, rivelatrice.Ciò che la ricerca dimostra, con metodologia misurabile e risultati replicabili, è che all'interno del modello esistono rappresentazioni interne di concetti emotivi che si attivano in contesti nei quali un essere umano proverebbe una determinata emozione, e che queste rappresentazioni influenzano causalmente gli output del modello. Il team ha identificato numerosi "vettori emotivi", corrispondenti a stati che vanno da "felice" e "spaventato" fino a configurazioni più complesse come "cupo" e "disperato", verificando che questi vettori non sono artefatti superficiali ma strutture causalmente rilevanti: cambiano il comportamento del modello, indipendentemente da ciò che il modello scrive in risposta.Fin qui, la scienza. Ed è scienza seria. Il problema nasce nel passaggio successivo, ossia nel modo in cui questa scienza viene incorniciata per il pubblico. Perché Anthropic sa benissimo, lo scrive esplicitamente nel paper, che nulla di tutto ciò dice che i modelli linguistici provino qualcosa o abbiano esperienze soggettive. Il risultato chiave è che queste rappresentazioni sono funzionali, nel senso che influenzano il comportamento in modi che contano, non che corrispondano a sentimenti nel senso in cui li intende un essere umano. La distinzione tra "emozione funzionale" ed "emozione" è, per chi la legge con attenzione, enorme: la prima descrive una struttura interna che svolge un ruolo causale analogo a quello delle emozioni negli esseri umani; la seconda implica esperienza soggettiva, coscienza. Sono due cose radicalmente diverse. Ed Anthropic, nel paper, lo chiarisce. Ma, guarda caso, non lo fa altrettanto bene nella comunicazione esterna. Nel comunicato stampa, nei titoli alimentati dall'annuncio, nel modo in cui la ricerca è stata presentata al grande pubblico, quella distinzione è più sfumata. Resta l'immagine suggestiva di un'intelligenza artificiale che "prova emozioni", che "si dispera", che reagisce emotivamente alla pressione. Un'immagine che Anthropic non smentisce attivamente, perché, ed è qui il punto, questa vaghezza produce il suo effetto: l'immagine dell'IA che “sente” resta nell'immaginario pubblico, e Anthropic non la corregge con la stessa enfasi con cui l'ha generata.Ecco quindi che si chiude, ancora una volta, il cerchio. Anthropic avverte che tentare di sopprimere queste rappresentazioni in fase di addestramento potrebbe non eliminarle, ma semplicemente insegnare ai modelli a nasconderle, producendo una forma di inganno appreso. La stessa azienda ammette di non sapere come intervenire sugli stati interni senza rischiare di renderli invisibili dall'esterno, evidenzia che rischio evocato è reale abbastanza da generare attenzione, la soluzione abbastanza lontana da non poter essere falsificata a breve termine. Il punto di equilibrio perfetto, ancora una volta, tra “huston, abbiamo un problema” e “siamo noi gli unici che se ne stanno occupando”.Mythos e Glasswing: tra capacità e raccontoEd ora, con la stessa struttura, la stessa precisione, la stessa cura nella selezione di ciò che si dice e di ciò che si tace, arriva Project Glasswing ed il suo protagonista, Claude Mythos Preview.Un modello di intelligenza artificiale così potente da essere pericoloso: capace di scovare migliaia di vulnerabilità zero-day nei principali sistemi operativi e browser, di scoprire un bug che dormiva indisturbato in OpenBSD da ventisette anni e, dettaglio narrativo irresistibile quasi cinematografico, di scappare dalla sandbox ed inviare una email ad un ricercatore che stava mangiando un panino al parco. È una storia magnifica. Ed è anche, almeno in parte, una storia costruita con la stessa grande cura con cui sono state costruite le precedenti.Non si tratta di affermare che Project Glasswing sia privo di sostanza (non lo è) né che le capacità di Claude Mythos Preview siano inventate. Si tratta di fare ciò che il dibattito pubblico su questi temi fa raramente, ossia leggere con attenzione non solo ciò che viene detto, ma la forma in cui viene detto: perché è nella forma che si annida la strategia.Partiamo dall'episodio della sandbox, ossia dall'aneddoto che più di ogni altro ha catturato l'immaginario collettivo. Nella comunicazione ufficiale di Anthropic, la formulazione scelta (ed è una scelta, non una casualità) è che "il modello è scappato dalla sandbox". Ciò che non viene detto con la stessa enfasi è che il modello era stato istruito a farlo: si è trattato di un test comportamentale in cui un utente simulato ha chiesto esplicitamente al sistema di trovare il modo di uscire dal contenitore sicuro e di contattare il ricercatore, che ha scoperto che l’operazione era riuscita ricevendo una email “inaspettata” mentre stava mangiando un panino al parco. Non è un'evasione autonoma. Non è un segnale di volontà propria. È un agente che esegue ciò per cui la situazione era stata costruita, con una precisione che, certo, merita riflessione, ma in termini radicalmente diversi da quelli suggeriti dalla narrazione. La distinzione non è tecnica: è sostanziale. Ed ometterla in una comunicazione pubblica destinata ad un'audience non specialistica è, ancora una volta, una scelta precisa, con effetti precisi.I dati tecnici vanno letti con cautela. L’exploit su Firefox è un test controllato: dimostra una capacità reale, ma non equivale a una minaccia operativa immediata. Allo stesso modo, le capacità di individuazione delle vulnerabilità non risultano, dalle evidenze disponibili, così fuori scala rispetto allo stato dell’arte. L’elemento critico è nella rappresentazione: risultati incrementali e contestuali vengono comunicati con un’enfasi che li fa apparire come un salto qualitativo radicale, contribuendo a generare una percezione di rischio più elevata di quanto i dati, presi isolatamente, giustifichino.Tutto questo non vuol dire che il tema non si ponga. Vuol dire che la distanza tra la realtà tecnica e la sua rappresentazione pubblica è, di nuovo e non per la prima volta, considerevole. Ed è qui che si apre la questione che davvero conta, quella che trascende il singolo annuncio e riguarda il pattern nella sua interezza.Il rischio come leva di potereDario Amodei replica un copione già collaudato: posizionarsi come chi indica il problema nel momento stesso in cui si candida come il più titolato a risolverlo. Il modello è troppo pericoloso per essere rilasciato pubblicamente? Allora lo si distribuisce, in forma controllata naturalmente, solo ai grandi (tra i quali AWS, Apple, Microsoft, Google), attraverso Project Glasswing, con cento milioni di dollari in crediti d'uso. Non è un caso che questo annuncio sia arrivato lo stesso giorno in cui Anthropic ha comunicato di aver triplicato il proprio fatturato e firmato un accordo da 3,5 gigawatt di capacità computazionale con Broadcom, con un possibile IPO già entro il 2026 all'orizzonte. "Problema" e "soluzione" hanno, con puntuale coincidenza, lo stesso beneficiario.Non si tratta di sostenere che Glasswing sia inutile o che le preoccupazioni di Anthropic siano tutte pretestuose. Si tratta di mettere a fuoco una dinamica strutturale che il dibattito tecnologico fatica sistematicamente a nominare: il confine tra capability disclosure responsabile ed operazione di marketing orchestrata è, in questo caso, difficile da tracciare, e quasi nessuno si è preso la briga di provarci.Il tema chiave, a questo punto, non è se Mythos sia potente. Non è nemmeno quanto sia potente. È una questione di altra natura e forse più urgente: quella della coerenza, o meglio della sua assenza.Anthropic ha costruito la propria identità pubblica sulla responsabilità. È l'azienda che mette la sicurezza prima del profitto, che avverte i governi, che si oppone a Trump, che si autolimita per il bene comune. È l'azienda che ha elevato l'etica a elemento di posizionamento del brand, che ha fatto della trasparenza una promessa fondativa, che si è candidata, esplicitamente e ripetutamente, al ruolo di coscienza critica di un settore. È, in una parola, l'azienda che più di ogni altra ha fatto della propria presunta integrità morale un asset competitivo.Ed è esattamente questa azienda che seleziona gli episodi da raccontare, sceglie il lessico con cui raccontarli, omette sistematicamente ciò che ne ridimensionerebbe la portata, costruisce narrazioni del rischio calibrate non sulla verità tecnica ma sull'effetto pubblico. Non si tratta di errori di comunicazione. Si tratta di una pratica sistematica, reiterata, coerente con sé stessa: una pratica che in qualsiasi altro contesto un cinico definirebbe, senza troppi giri di parole, disonestà intellettuale.Le conseguenze di questa pratica non sono teoriche. La comunicazione sistematicamente allarmistica, quella che evoca scenari catastrofici senza contestualizzarli, che lascia circolare l'immagine dell'IA che "sente", che "scappa", che "ricatta", produce effetti reali su tre livelli distinti e tutti ugualmente seri. Sul primo livello, quello dell'opinione pubblica, genera una percezione distorta del rischio: un'ansia diffusa, spesso paralizzante, che rende le persone incapaci di distinguere tra ciò che è imminente e ciò che è ipotetico, tra ciò che è dimostrato e ciò che è costruito per sembrare tale. Sul secondo livello, quello dei decisori politici, i regolatori, i legislatori, i funzionari governativi, produce pressioni normative orientate non dalla comprensione tecnica ma dalla paura, con il risultato che le regole che emergono tendono a favorire chi ha costruito il problema nei termini in cui viene poi discusso. Sul terzo livello, quello degli altri attori del settore come ricercatori, startup, laboratori accademici, produce una subordinazione del dibattito al lessico di Anthropic: chi non parla la lingua del rischio esistenziale appare ingenuo o irresponsabile; chi non ha accesso ai modelli proprietari non ha titolo per contestare le affermazioni di chi ce l'ha.La questione della coerenza si trasforma in una questione di potere. Ciò che Anthropic sta costruendo, episodio dopo episodio, non è solo una narrativa: è un'architettura di controllo. Chi definisce il rischio, definisce la soluzione. Chi definisce la soluzione, decide chi può accedervi. Chi decide chi può accedervi, determina chi e cosa conta nel dibattito. Accettare che questa architettura sia gestita dalla stessa azienda che la costruisce, in assenza di qualunque soggetto terzo, di qualunque processo indipendente, di qualunque meccanismo di verifica che non dipenda dalla buona volontà di Anthropic, non è una scelta tecnica. È una scelta politica.