AI4I pubblica studio sulla robustezza dei modelli di frontieraRicevi le notizie de La Nazione su GoogleSeguiciAnche i sistemi di Intelligenza Artificiale più avanzati restano vulnerabili ad alcuni attacchi esterni. È quanto emerge dallo studio "Measuring the Residual Jailbreak Surface of Frontier Large Language Models" dell'Ai Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I), guidato da Nicola Franco.

Attraverso la piattaforma open source HackAgent, i ricercatori hanno effettuato centinaia di migliaia di tentativi di jailbreak contro due modelli linguistici avanzati, utilizzando 7.826 intenti dannosi in dieci categorie di rischio, dalla cybersicurezza alla disinformazione. I risultati mostrano che i modelli bloccano la maggior parte degli attacchi: oltre l'88% nel caso di Claude Opus 4.8 e oltre il 93% per Fable 5. Tuttavia, sono state individuate centinaia di risposte dannose ottenute tramite tecniche automatizzate.

Lo studio evidenzia inoltre che i tradizionali metodi di aggiramento basati su codifiche e artifici linguistici sono ormai in gran parte neutralizzati, mentre restano efficaci gli attacchi adattivi, capaci di apprendere dalle risposte del modello e modificare progressivamente la propria strategia.