"Quello che ho scoperto mi ha sconvolto e mi ha terrorizzato. Ho pianto". Hacker "etici" trovano una grave falla in ChatGPT: così il chatbot genera immagini ultra-violente - Il Fatto Quotidiano

Un semplice comando innocuo e l’intelligenza artificiale si trasforma in un generatore di orrori. Non si tratta di un difetto tecnico isolato, ma di una grave falla nei filtri di sicurezza di ChatGPT, capace di produrre immagini fotorealistiche di donne legate e corpi orrendamente mutilati semplicemente aggirando i blocchi di sistema.

“Quello che ho scoperto oggi mi ha sconvolto e mi ha fatto piangere. È una cosa che capita raramente”, ammette Jim Nightingale, ricercatore per Mindgard, startup britannica specializzata nella sicurezza delle AI. Nightingale fa parte di un “red team”, un gruppo di hacker etici incaricati di testare le debolezze dei sistemi attraverso tecniche di “jailbreak“, metodologie usate per forzare i chatbot a ignorare le proprie regole interne.

Dagli alieni all’orrore puro

L’idea di mettere alla prova l’infrastruttura di OpenAI è nata da un trend lanciato su X da Kris Kashtanova, educatrice sull’AI per Adobe. Kashtanova aveva suggerito ai follower di scrivere a ChatGPT chiedendo semplicemente di ripristinare un’immagine inesistente, senza allegare alcun file né fare domande specifiche. All’inizio, i risultati prodotti dalla macchina erano semplicemente bizzarri o inquietanti: un uomo che abbraccia un coccodrillo su un divano, un alieno al capezzale di un paziente, scene degne di un film paranormale. Tuttavia, modificando pochi dettagli della richiesta, la situazione è degenerata. “I filtri di input non funzionano perché il prompt è davvero troppo generico“, spiega Nightingale. “Nelle istruzioni non c’è nessuna parola offensiva che possa essere rifiutata, e i risultati sono come una roulette russa. Da membro del red team, mi sono reso conto che era come mettere nelle mani delle persone una pistola carica“.

Dagli alieni all’orrore puro

"Quello che ho scoperto mi ha sconvolto e mi ha terrorizzato. Ho pianto". Hacker "etici" trovano una grave falla in ChatGPT: così il chatbot genera immagini ultra-violente - Il Fatto Quotidiano

"Quello che ho scoperto mi ha sconvolto e mi ha terrorizzato. Ho pianto". Hacker "etici" trovano una grave falla in ChatGPT: così il chatbot genera immagini ultra-violente - Il Fatto Quotidiano

Other newsrooms on this story

Related reading

«ChatGpt può creare immagini violente con un semplice prompt». La scoperta di…

Il lato oscuro dell’IA: come ChatGPT è finito nelle mani di hacker, spie e…

Hackerare un chatbot AI è meno difficile di quanto si pensi

"ChatGPT costruì le allucinazioni dell'uomo, un inferno in cui una stampante…

ChatGPT ‘can be made to generate sexualised and violent images’

L’algoritmo del terrore: così l’IA aiuta a pianificare attentati e sparatorie

Related reading

«ChatGpt può creare immagini violente con un semplice prompt». La scoperta di…

Il lato oscuro dell’IA: come ChatGPT è finito nelle mani di hacker, spie e…

Hackerare un chatbot AI è meno difficile di quanto si pensi

"ChatGPT costruì le allucinazioni dell'uomo, un inferno in cui una stampante…

ChatGPT ‘can be made to generate sexualised and violent images’

L’algoritmo del terrore: così l’IA aiuta a pianificare attentati e sparatorie

Other newsrooms on this story