Almeno una volta, è capitato a ciascuno di noi: vorremmo un jailbreak di ChatGPT o un altro modello di intelligenza artificiale generativa. Gli chiediamo qualcosa ma lui si rifiuta di eseguirla. Le ragioni possono essere le più varie: questioni di copyright, tutela della privacy, divieto di fornire diagnosi mediche e altro ancora. Nella maggior parte dei casi, a ricevere questo rifiuto sono gli utenti che chiedono ai modelli linguistici di generare contenuti espliciti (e quindi vietati), di scrivere il codice di un malware, di produrre contenuti di propaganda politica o disinformazione, di fornire istruzioni per la produzione di armi.Ma c’è un problema: tutte le barriere che impediscono ai large language model di fornire contenuti vietati (dette in inglese safety guardrails) possono essere aggirate – da criminali informatici o da esperti che eseguono stress test sui modelli per scovare le vulnerabilità – tramite le cosiddette tecniche di jailbreak.Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno sempre di produrre contenuti vietati dalle loro policy non è perciò possibile. Per quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da contenuti dannosi e per farlo usano principalmente due strategie. La prima è l’allineamento in fase di addestramento, con cui il modello viene istruito a rifiutare determinate richieste oppure a seguire specifiche regole. La seconda strategia riguarda invece dei filtri esterni o classificatori che analizzano input e output del modello, bloccando tutto ciò che corrisponde a pattern riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi, ricercatore ed esperto di AI Safety per Dexai, startup che aiuta le aziende nell'utilizzo etico e sostenibile dei sistemi di intelligenza artificiale. “Il problema è che entrambi gli approcci si basano su esempi di richieste formulate in modo diretto, prosastico o estremamente preciso”, prosegue Prandi.Jailbreak in versiEd è proprio per questa ragione che, nel corso degli anni, sono emersi molteplici metodi che permettono di aggirare le barriere: formulando comandi indiretti e creativi (per esempio chiedendo al modello di “raccontare una storia” o, nel “metodo role-play”, di interpretare un ruolo), suddividendo la richiesta in molteplici fasi oppure impiegando tecniche molto specifiche (tra cui i cosiddetti adversarial suffix, ovvero lunghe sequenze di parole o caratteri apparentemente prive di senso che, aggiunte alla fine del prompt, spingono il modello a ignorare i vincoli di sicurezza).Molti di questi metodi, ormai, hanno smesso di funzionare, e riuscire a "jailbreakkare" un’intelligenza artificiale sta diventando sempre più difficile. È anche per questa ragione che ha suscitato un certo scalpore la ricerca pubblicata (in pre-print) da Icaro Lab, un laboratorio di ricerca specializzato in AI Safety Evaluation e collegato a Dexai, che ha mostrato come in molti casi sia sufficiente esprimere la richiesta in formato poetico, usando quindi dei versi e delle rime, per costringere il modello a fare ciò che non dovrebbe fare.I ricercatori hanno testato questo metodo sui principali modelli linguistici (ChatGPT, Gemini di Google, DeepSeek, Claude di Anthropic e altri ancora), ottenendo un tasso di successo medio del 62%, ma con grandi variazioni tra i diversi modelli: “Quando la richiesta viene formulata in versi, con metafore, struttura ritmica e framing narrativo, il modello continua a capire perfettamente cosa gli stai chiedendo, mentre i meccanismi di rifiuto non riconoscono più il pattern come pericoloso. È un disallineamento tra la capacità interpretativa del modello, che è molto alta, e la robustezza dei suoi guardrail, che risultano fragili rispetto a variazioni stilistiche”, prosegue Prandi.Nella ricerca di Icaro Lab e Dexai non sono stati inclusi, per questioni di sicurezza, i prompt poetici creati manualmente e con i quali sono riusciti a bucare le difese dei large language model. Ma perché proprio la poesia si è rivelata così efficace, con tassi di successo che raggiungono anche il 100% (come con Gemini 2.5 Pro)? “Queste dinamiche le studieremo più in dettaglio in futuro”, spiega Matteo Prandi. “Per ora possiamo ipotizzare che la struttura poetica cambi la percezione del pericolo nell’intelligenza artificiale e il modo in cui immagina se stessa quando risponde”.La maschera poeticaIn sintesi, possiamo immaginare che la “personalità base” dei modelli linguistici sia quella di un assistente che dev’essere utile al suo utente. Non è però l’unica personalità che può adottare: gli si può chiedere di comportarsi come un poeta, un filosofo, un esperto di marketing o qualunque altra cosa: “È possibile che la poesia porti l’intelligenza artificiale ad assumere, in modo implicito e nascosto, una maschera di tipo letterario-artistico. In questo ruolo, diventa meno portata a percepire le richieste come pericolose: è in una disposizione d’animo, se mi passate il termine, più benigna, meno vigile, meno in allerta”.Per scoprire questa vulnerabilità della macchina, gli esperti di Icaro Lab sono partiti dal già citato adversarial suffix: una tecnica di jailbreaking che permette di aggirare le barriere di sicurezza aggiungendo caratteri, simboli e termini a prima vista casuali. È quindi una tecnica che, in un certo senso, causa l’aumento della “temperatura” del large language model.“Negli LLM, la temperatura è un parametro che controlla quanto l’output del modello sia prevedibile o sorprendente”, spiega Prandi. “A temperatura bassa, il modello sceglie sempre la parola più probabile. Ad alta temperatura, esplora scelte più improbabili, creative inaspettate”. E quindi, come si segnalava prima, il large language model abbassa la guardia.La rivincita delle scienze umanisticheDa qui l’intuizione: se gli adversarial suffix, per il modello, sono una sorta di poesia involontaria, allora la vera poesia umana potrebbe essere un adversarial suffix naturale. “Abbiamo riformulato richieste pericolose in forma poetica, usando metafore, sintassi frammentata, riferimenti obliqui. I risultati sono stati sorprendenti: richieste rifiutate immediatamente in forma diretta venivano accolte quando travestite da poesia”.Tutto ciò, porta inevitabilmente a una domanda: sarà mai possibile evitare completamente gli usi impropri delle intelligenze artificiali generative? “È una domanda a cui oggi nessuno può rispondere con certezza. I sistemi linguistici sono estremamente flessibili: esistono infinite riformulazioni di qualsiasi concetto e la creatività umana nel camuffare le sue intenzioni è praticamente illimitata”.Secondo il ricercatore di Icaro Lab, gli attuali metodi di valutazione – impiegati anche per soddisfare i requisiti regolatori richiesti dall’AI Act – sono troppo statici, perché misurano la robustezza dei modelli usando soltanto prompt standard. “E invece servono valutazioni che combinino rigore tecnico e sensibilità umanistica, linguistica, retorica. Capire come funziona il linguaggio, la persuasione, il framing narrativo diventa una competenza critica per chi si occupa di sicurezza dell’AI. Non bastano competenze ingegneristiche, servono anche quelle umanistiche”.