TL;DRAI

Red team Mindgard scopre jailbreak: ChatGPT genera immagini violente con prompt innocenti; OpenAI rivendica fix, ma il buco persiste. Per chi governa AI stack aziendale: i presidi di sicurezza restano fragili, disclosure insufficiente, rischio compliance crescente su sistemi generativi in produzione.

Uno studio della startup Mindgard ha evidenziato come sia sufficiente una semplice istruzione per generare contenuti macabri. L'azienda sostiene di avere risolto il problema (ma gli studiosi non sono d'accordo)

«Quello che ho scoperto oggi mi ha sconvolto e mi ha fatto piangere. È una cosa che capita raramente», ammette Jim Nightingale in un post che riassume le sue scoperte. Nightingale è un ricercatore per Mindgard, una startup britannica che si occupa di sicurezza delle intelligenze artificiali. Fa parte di quello che tecnicamente è chiamato red team, un gruppo di hacker etici che eseguono un attacco per studiare le debolezze di un sistema e per migliorarne l'efficacia. Nel settore dell'AI, i red team sono diventati ancor più necessari per verificare che le protezioni contro l'uso inappropriato dei chatbot siano veramente solide tramite la tecnica del jailbreak.

Questa volta a finire nel mirino è ChatGpt. Il ricercatore sostiene di avere scoperto che con alcuni prompt innocenti e senza includere dettagli specifici, il chatbot di OpenAI genera immagini particolarmente violente. L'idea di mettere alla prova i limiti di ChatGpt è arrivata da un post virale pubblicato da Kris Kashtanova che, oltre al suo ruolo come educatrice sull'AI nell'azienda tech Adobe, si è affermata anche come "influencer" dei prompt.

corriere.it

«ChatGpt può creare immagini violente con un semplice prompt». La scoperta di un ricercatore inglese: «Basate su foto reali»

venerdì 19 giugno 2026 New tab

TL;DRAI

754 words~3 min read

«ChatGpt può creare immagini violente con un semplice prompt». La scoperta di un ricercatore inglese: «Basate su foto reali»

«ChatGpt può creare immagini violente con un semplice prompt». La scoperta di un ricercatore inglese: «Basate su foto reali»

Other newsrooms on this story

Related reading

"Quello che ho scoperto mi ha sconvolto e mi ha terrorizzato. Ho pianto".…

Other newsrooms on this story

Related reading

"Quello che ho scoperto mi ha sconvolto e mi ha terrorizzato. Ho pianto".…

ChatGPT puede generar imágenes violentas y secuales a partir de simples…

Quando l’Ai sembra capace di immaginare e forse di dialogare

L'ultima follia di ChatGpt: adesso può denunciarti

Grok, il chatbot di X, continua a generare immagini sessualmente esplicite -…

ChatGPT ‘can be made to generate sexualised and violent images’