Uno studio della startup Mindgard ha evidenziato come sia sufficiente una semplice istruzione per generare contenuti macabri. L'azienda sostiene di avere risolto il problema (ma gli studiosi non sono d'accordo)
«Quello che ho scoperto oggi mi ha sconvolto e mi ha fatto piangere. È una cosa che capita raramente», ammette Jim Nightingale in un post che riassume le sue scoperte. Nightingale è un ricercatore per Mindgard, una startup britannica che si occupa di sicurezza delle intelligenze artificiali. Fa parte di quello che tecnicamente è chiamato red team, un gruppo di hacker etici che eseguono un attacco per studiare le debolezze di un sistema e per migliorarne l'efficacia. Nel settore dell'AI, i red team sono diventati ancor più necessari per verificare che le protezioni contro l'uso inappropriato dei chatbot siano veramente solide tramite la tecnica del jailbreak.
Questa volta a finire nel mirino è ChatGpt. Il ricercatore sostiene di avere scoperto che con alcuni prompt innocenti e senza includere dettagli specifici, il chatbot di OpenAI genera immagini particolarmente violente. L'idea di mettere alla prova i limiti di ChatGpt è arrivata da un post virale pubblicato da Kris Kashtanova che, oltre al suo ruolo come educatrice sull'AI nell'azienda tech Adobe, si è affermata anche come "influencer" dei prompt.








