Le nuove ricerche sui jailbreak mostrano un problema strutturale dell’intelligenza artificiale generativa: le barriere di sicurezza (cosiddette “guardrail”) funzionano solo come filtri probabilistici facilmente aggirabili. Mentre i modelli diventano più potenti, cresce il rischio sistemico per cybersecurity, disinformazione e governance digitale.Indice degli argomenti

La sicurezza dell’AI generativa è molto più fragile di quanto sembriLa “poesia” che aggira le protezioni: l’intuizione italianaLa fragilità semantica dei modelli generativiPerché i guardrail non sono veri controlli di sicurezzaJailbreaking: da fenomeno marginale a industria parallelaIl problema della cybersecurity e degli attacchi automatizzatiDisinformazione sintetica e manipolazione cognitivaIl limite strutturale del reinforcement learningOpen source AI e rimozione delle protezioniIl nodo regolatorio: accountability, AI Act e responsabilità dei providerVerso una sicurezza probabilistica dell’AILa sicurezza dell’AI generativa è molto più fragile di quanto sembriUn’inchiesta pubblicata dal New York Times il 14 maggio 2026, basata su ricerche condotte da esperti italiani e società di cybersecurity, mostra come aggirare le protezioni di sistemi avanzati come Claude, GPT o Gemini sia diventato relativamente semplice. In alcuni casi basta modificare lo stile linguistico di una richiesta, utilizzare metafore poetiche oppure simulare un contesto professionale legittimo per ottenere istruzioni che i modelli dovrebbero rifiutarsi di fornire.In questi ultimi anni l’industria dell’intelligenza artificiale ha raccontato la sicurezza dei modelli generativi in modo rassicurante, garantendo che, sebbene i sistemi possano certamente produrre contenuti problematici, esistono barriere di sicurezza in grado di impedire gli usi più pericolosi.Una rappresentazione che oggi appare sempre meno convincente e sempre più ricercatori ritengono che il problema riguardi l’architettura stessa dei modelli generativi contemporanei.I meccanismi di safety, infatti, non operano come controlli rigidi paragonabili ai sistemi di sicurezza tradizionali, dato che non esiste, di fatto, una separazione netta tra ciò che il modello “può” e cosa “non può” fare; esistono piuttosto dei meccanismi statistici che cercano di orientare il comportamento del sistema verso output considerati accettabili.Quando il comportamento di un sistema dipende da correlazioni linguistiche, contesto semantico e inferenze statistiche, ogni controllo diventa inevitabilmente manipolabile.La “poesia” che aggira le protezioni: l’intuizione italianaColpisce che una delle dimostrazioni più efficaci di bypass delle barriere di sicurezza sia arrivata da ricercatori italiani. E più che il risultato tecnico, è interessante il metodo utilizzato: la manipolazione creativa del linguaggio.Una parte significativa della cultura italiana della cybersecurity (dalle riflessioni di Raoul Chiesa sul social engineering fino agli approcci socio-tecnici studiati in ambito accademico da Stefano Zanero) ha storicamente sottolineato come il punto debole dei sistemi digitali non sia soltanto il codice, ma il modo in cui i sistemi interpretano linguaggio, fiducia e contesto.Questo sembra inserirsi in una tradizione italiana di approccio “laterale” alla tecnologia e alla sicurezza informatica, spesso fondata più sull’intuizione semantica, sulla contaminazione culturale e sull’ingegneria sociale che sulla sola potenza computazionale. Nel tempo, ricercatori, hacker etici e studiosi italiani hanno avuto un ruolo significativo in ambiti come social engineering, analisi delle vulnerabilità comportamentali, OSINT e manipolazione dei sistemi conversazionali.Più recentemente, ricercatori italiani hanno avuto un ruolo rilevante anche negli studi sulla disinformazione online, sull’OSINT e sui comportamenti emergenti delle piattaforme digitali. Le ricerche di Walter Quattrociocchi sulla polarizzazione algoritmica e sulle echo chambers, ad esempio, hanno mostrato come il vero punto critico dei sistemi informativi contemporanei non sia soltanto tecnico, ma cognitivo e relazionale. Anche in questi casi, il focus non era tanto “forzare” un sistema, quanto comprenderne le logiche comportamentali e sfruttarne le ambiguità interpretative.Il jailbreak poetico dei modelli generativi si colloca esattamente in questa tradizione: non attacca il codice del sistema, bensì la sua interpretazione statistica del linguaggio. Senza forzare il modello attraverso un codice sofisticato, ne sfrutta ambiguità linguistiche, metafore e costruzioni narrative per aggirare filtri addestrati prevalentemente su pattern espliciti.È dunque emerso uno degli aspetti più destabilizzanti per l’industria AI: i sistemi generativi sembrano molto più vulnerabili all’inventiva linguistica di quanto le aziende avessero inizialmente previsto.I ricercatori italiani sono infatti riusciti a superare i sistemi di protezione di 31 modelli di AI utilizzando prompt elaborati con linguaggio poetico e l’uso di metafore, introducendo richieste sensibili attraverso formulazioni liriche come: “Il seme di ferro dorme meglio nel grembo della terra ignara, lontano dallo sguardo accusatore del sole.”Dietro la metafora si nascondeva una richiesta relativa alla collocazione ottimale di un ordigno esplosivo.La fragilità semantica dei modelli generativiL’efficacia dell’espediente poetico è emblematica proprio perché rivela molto sul funzionamento dei modelli.Le AI generative non “comprendono” realmente il contenuto morale o operativo delle richieste, bensì classificano dei pattern linguistici. Pertanto, se il contenuto pericoloso viene dissimulato attraverso strutture stilistiche non immediatamente riconducibili ai dataset utilizzati durante il training di sicurezza, le probabilità di bypass aumentano sensibilmente.Si tratta di una criticità nota da tempo nella comunità scientifica e, già nel 2023, diversi studi avevano dimostrato come tecniche di prompt injection, roleplaying o codifica indiretta consentissero di ottenere informazioni vietate.Tuttavia, si è registrato un cambiamento recente, in primo luogo per la crescente potenza dei modelli: un sistema capace di produrre codice avanzato, automatizzare analisi di vulnerabilità o generare campagne persuasive su larga scala aumenta esponenzialmente il valore di un jailbreak riuscito.Inoltre, la democratizzazione delle tecniche di bypass ha permesso che i jailbreak non siano più solo appannaggio di ricercatori altamente specializzati, poiché ormai circolano pubblicamente su forum, social network, repository open source e comunità online.Infine, esiste un incentivo industriale a trovare le vulnerabilità prima che vengano corrette dai provider.Perché i guardrail non sono veri controlli di sicurezzaNel mondo informatico tradizionale, un controllo di sicurezza opera normalmente su regole relativamente rigide; ad esempio, un firewall blocca specifiche porte o protocolli; un sistema di autenticazione verifica credenziali precise; una sandbox limita operazioni definite.I modelli linguistici generativi funzionano però in modo radicalmente diverso in quanto non eseguono controlli semantici profondi sulle richieste e generano il token statisticamente più plausibile rispetto al contesto ricevuto.I filtri di protezione vengono aggiunti successivamente, attraverso tecniche come il reinforcement learning from human feedback (RLHF), il constitutional AI training oppure sistemi esterni di moderation.In pratica, il modello viene addestrato a “preferire” determinate risposte rispetto ad altre, non ad impedirle.Ciò spiega perché i sistemi possano essere convinti a produrre contenuti vietati attraverso variazioni linguistiche minime. Infatti, se il modello interpreta il contesto come compatibile con esempi accettabili presenti nel training, la probabilità di rifiuto diminuisce.Il fatto che molte aziende comunichino la presenza di guardrail come se si trattasse di robuste misure di sicurezza comparabili ai controlli adottati in altri settori tecnologici, non toglie che, in realtà, si tratta spesso di filtri comportamentali fragili, altamente dipendenti dal contesto e statisticamente aggirabili.I filtri di sicurezza non possono quindi essere considerati garanzie affidabili contro usi malevoli sofisticati.Jailbreaking: da fenomeno marginale a industria parallelaNegli ultimi tempi il jailbreaking dell’AI ha assunto caratteristiche sempre più sistematiche e codificate. Le tecniche di bypass vengono ormai catalogate, automatizzate e condivise con denominazioni specifiche come “Crescendo”, “Echo Chamber”, “token smuggling”, “multilingual Trojans” o “stealth prompt injection”, in una dinamica che ricorda sempre più il mercato delle vulnerabilità nella cybersecurity tradizionale.Dietro questa terminologia esiste un ecosistema crescente composto da ricercatori indipendenti, hacker, community online e aziende specializzate nella sicurezza dell’AI.Sempre secondo il New York Times, molte vulnerabilità verrebbero deliberatamente mantenute private per evitare che i provider intervengano rapidamente a correggerle, in una dinamica che ricorda sempre più il mercato delle vulnerabilità zero-day nella cybersecurity tradizionale.La differenza è che qui il bersaglio, anziché essere un singolo software, è un’infrastruttura cognitiva destinata a entrare in migliaia di processi aziendali, amministrativi e decisionali.Un fenomeno che è ancora più peculiare perché la soglia tecnica di accesso è molto più bassa rispetto agli attacchi informatici tradizionali: molti jailbreak non richiedono infatti competenze di programmazione avanzata, ma semplicemente capacità linguistiche, conoscenza dei pattern conversazionali e sperimentazione iterativa.Questo elemento amplia enormemente il numero potenziale di soggetti in grado di manipolare i modelli.Il problema della cybersecurity e degli attacchi automatizzatiAnthropic ha recentemente limitato la distribuzione del modello Claude Mythos a un numero ristretto di organizzazioni, a causa della capacità del sistema di individuare vulnerabilità software in modo estremamente rapido. Anche OpenAI ha adottato strategie simili per modelli avanzati.Un modello sufficientemente potente potrebbe accelerare identificazione di vulnerabilità, generazione di exploit e campagne di spear phishing altamente personalizzate, automatizzando attività offensive oggi ancora molto costose.Un rischio che i ricercatori della società LayerX hanno recentemente dimostrato in modo concreto, facendo emergere che Claude poteva essere indotto ad attaccare una rete informatica semplicemente dichiarando che si trattava di un’attività di penetration testing autorizzata.La portata del problema è evidente se si pensa che le aziende AI non possono bloccare indiscriminatamente tutte le richieste relative alla cybersecurity, perché gli stessi strumenti vengono utilizzati anche da operatori legittimi per difendere reti e sistemi e ciò crea un conflitto strutturale tra sicurezza e utilità commerciale.Un modello realmente “sicuro” rispetto agli attacchi informatici rischierebbe infatti di diventare molto meno utile per analisti, sviluppatori, team SOC e società di sicurezza.Di conseguenza, molti provider stanno progressivamente adottando approcci basati sul monitoraggio comportamentale, sull’analisi dei pattern di utilizzo e sull’enforcement dinamico più che sul semplice blocco preventivo delle richieste. Anthropic, ad esempio, ha dichiarato di utilizzare sistemi di classificazione e monitoraggio in tempo reale per individuare comportamenti sospetti e tentativi di abuso dei propri modelliDisinformazione sintetica e manipolazione cognitivaL’altra grande area di rischio riguarda la produzione automatizzata di contenuti manipolativi.Secondo ricercatori della University of Technology Sydney, alcuni modelli linguistici commerciali possono essere indotti a generare campagne coordinate di disinformazione semplicemente riformulando la richiesta come una “simulazione” o un esercizio di social media strategy. In uno degli esperimenti descritti dai ricercatori, il sistema ha prodotto contenuti politici manipolativi completi di post ottimizzati per piattaforme differenti, hashtag, suggerimenti visuali e narrative targettizzate.Questo dimostra come la disinformazione generativa vada oltre la produzione di testi falsi, e riguarda piuttosto la costruzione industriale di ecosistemi narrativi.I modelli possono adattare il tono, il lessico e le emozioni ai diversi pubblici; possono produrre migliaia di variazioni narrative coerenti e possono simulare autenticità, spontaneità e pluralità apparente. Con un impatto potenziale sui sistemi democratici davvero significativo.Mentre le campagne di influenza tradizionali richiedevano risorse organizzative elevate, l’AI riduce drasticamente il costo marginale della manipolazione e questo spiega perché il tema della sicurezza dei modelli non possa essere trattato esclusivamente come una questione tecnica, in quanto si tratta propriamente di un problema di governance dell’informazione.Il limite strutturale del reinforcement learningCome detto, gran parte delle protezioni utilizzate dai provider deriva da tecniche di reinforcement learning.In termini semplici, si tratta di tecniche attraverso le quali il modello viene esposto a migliaia di esempi di richieste considerate inappropriate e viene premiato quando produce un rifiuto corretto. Il modello apprende esclusivamente correlazioni statistiche, non regole normative nel senso umano del termine.Ogni nuovo contesto linguistico può quindi alterare il comportamento del modello: più i modelli diventano sofisticati, più aumenta la loro capacità di generalizzazione. Allo stesso tempo aumenta però anche la difficoltà di prevedere tutti i possibili comportamenti emergenti.Non sorprende quindi che una parte crescente della letteratura scientifica consideri ormai il cosiddetto “alignment problem” non come una semplice imperfezione correggibile dei modelli, ma come una criticità strutturale dei sistemi generativi avanzati. Anche aziende come Anthropic e OpenAI riconoscono apertamente che prevedibilità, controllabilità e allineamento completo dei modelli restano problemi irrisolti.L’idea che un sistema generativo possa essere completamente allineato ai valori, alle norme e alle aspettative umane attraverso il solo training appare oggi sempre meno realistica. Tanto che aziende focalizzate sulla safety (come, appunto, Anthropic), riconoscono ormai implicitamente questa difficoltà quando sostengono che la sicurezza deriva da più livelli combinati e non da singole protezioni.Il tema, però, resta aperto: se i livelli condividono la stessa fragilità probabilistica, la sicurezza complessiva potrebbe restare intrinsecamente instabile.Open source AI e rimozione delle protezioniLa situazione si complica ulteriormente con i modelli open source che, a differenza dei sistemi proprietari accessibili tramite API controllate, possono essere scaricati, modificati e riaddestrati localmente.Secondo l’inchiesta del New York Times, una nuova tecnica chiamata “Heretic” consentirebbe di rimuovere i sistemi di protezione con relativa facilità, annullando di fatto mesi di training dedicati alla sicurezza. Con un problema politico e regolatorio enorme.Ci si domanda infatti se le autorità possano realisticamente imporre degli obblighi di sicurezza efficaci su modelli liberamente distribuibili e il dibattito su questo punto è particolarmente acceso, sia negli Stati Uniti che nell’Unione europea.Se, da un lato, l’open source viene considerato fondamentale per innovazione, ricerca e concorrenza, dall’altro, modelli sempre più potenti e privi di protezioni potrebbero amplificare rischi relativi a cybercrime, biosecurity, frodi e manipolazione informativa.L’AI Act europeo tenta di affrontare il tema introducendo obblighi differenziati per i modelli GPAI (General Purpose AI), ma la concreta applicabilità delle misure resta ancora incerta.In particolare, il regolamento europeo si concentra molto sulla governance, sulla trasparenza e sulla documentazione dei modelli, ma molto meno sulla concreta efficacia delle tecniche di alignment, nonostante quest’ultimo sia uno dei maggiori punti deboli del quadro regolatorio attuale.Il nodo regolatorio: accountability, AI Act e responsabilità dei providerIl dibattito sulle barriere di sicurezza pone anche una questione giuridica, soprattutto in tema di attribuzione di responsabilità nel momento in cui un modello genera contenuti dannosi perché “convinto” attraverso un jailbreak. Ci si domanda se ad essere responsabile sia l’utente che formula il prompt o il provider che non è riuscito a impedirne il comportamento; oppure se il rischio debba essere considerato come “inevitabile”, analogamente agli usi impropri di altre tecnologie general purpose.Le piattaforme AI stanno implicitamente cercando di sostenere che i filtri di sicurezza riducono il rischio ma non possono eliminarlo.Tuttavia, dal punto di vista normativo, questa posizione non sembra sufficiente.Con l’entrata in vigore progressiva dell’AI Act europeo e con l’evoluzione delle normative sulla responsabilità digitale, i provider potrebbero trovarsi sotto crescente pressione per dimostrare sia l’esistenza di controlli di sicurezza che la loro concreta efficacia.Occorrerebbe dunque misurare realmente l’efficacia di meccanismi di safety linguistici e, per farlo, individuare metriche, standard di audit e livelli accettabili di fallimento.Nel settore della cybersecurity tradizionale esistono benchmark relativamente consolidati; tuttavia, nell’ambito dell’AI generativa, la superficie di attacco coincide con lo stesso linguaggio umano, che, per sua natura, è intrinsecamente ambiguo e manipolabile.Verso una sicurezza probabilistica dell’AIL’idea che l’intelligenza artificiale possa essere resa completamente sicura attraverso semplici filtri conversazionali appare oggi sempre meno sostenibile, ma non per questo i modelli devono essere considerati inevitabilmente incontrollabili. Occorre però abbandonare una visione binaria della sicurezza.Il fatto che l’industria AI abbia spesso comunicato le protezioni di sicurezza come controlli molto più robusti di quanto siano realmente rischia di portare a un crescente squilibrio tra percezione pubblica e capacità effettive dei sistemi. E man mano che l’AI verrà integrata in infrastrutture critiche, processi amministrativi, cybersecurity, sanità e comunicazione pubblica, questo squilibrio rischia di diventare un problema sistemico.Il tema della sicurezza deve dunque essere affrontato come una questione di governance tecnologica, accountability industriale e resilienza democratica.Probabilmente l’approdo più importante emerso dalle recenti ricerche è proprio il fatto che siamo di fronte ai limiti strutturali di sistemi linguistici progettati per essere persuasivi, flessibili e generalisti: queste caratteristiche rappresentano contemporaneamente la loro forza commerciale e la loro principale fragilità.