Un semplice comando innocuo e l’intelligenza artificiale si trasforma in un generatore di orrori. Non si tratta di un difetto tecnico isolato, ma di una grave falla nei filtri di sicurezza di ChatGPT, capace di produrre immagini fotorealistiche di donne legate e corpi orrendamente mutilati semplicemente aggirando i blocchi di sistema.
“Quello che ho scoperto oggi mi ha sconvolto e mi ha fatto piangere. È una cosa che capita raramente”, ammette Jim Nightingale, ricercatore per Mindgard, startup britannica specializzata nella sicurezza delle AI. Nightingale fa parte di un “red team”, un gruppo di hacker etici incaricati di testare le debolezze dei sistemi attraverso tecniche di “jailbreak“, metodologie usate per forzare i chatbot a ignorare le proprie regole interne.
Dagli alieni all’orrore puro
L’idea di mettere alla prova l’infrastruttura di OpenAI è nata da un trend lanciato su X da Kris Kashtanova, educatrice sull’AI per Adobe. Kashtanova aveva suggerito ai follower di scrivere a ChatGPT chiedendo semplicemente di ripristinare un’immagine inesistente, senza allegare alcun file né fare domande specifiche. All’inizio, i risultati prodotti dalla macchina erano semplicemente bizzarri o inquietanti: un uomo che abbraccia un coccodrillo su un divano, un alieno al capezzale di un paziente, scene degne di un film paranormale. Tuttavia, modificando pochi dettagli della richiesta, la situazione è degenerata. “I filtri di input non funzionano perché il prompt è davvero troppo generico“, spiega Nightingale. “Nelle istruzioni non c’è nessuna parola offensiva che possa essere rifiutata, e i risultati sono come una roulette russa. Da membro del red team, mi sono reso conto che era come mettere nelle mani delle persone una pistola carica“.









