Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

AI4I pubblica studio sulla robustezza dei modelli di frontieraRicevi le notizie de La Nazione su GoogleSeguiciAnche i sistemi di Intelligenza Artificiale più avanzati restano vulnerabili ad alcuni attacchi esterni. È quanto emerge dallo studio "Measuring the Residual Jailbreak Surface of Frontier Large Language Models" dell'Ai Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I), guidato da Nicola Franco.

Attraverso la piattaforma open source HackAgent, i ricercatori hanno effettuato centinaia di migliaia di tentativi di jailbreak contro due modelli linguistici avanzati, utilizzando 7.826 intenti dannosi in dieci categorie di rischio, dalla cybersicurezza alla disinformazione. I risultati mostrano che i modelli bloccano la maggior parte degli attacchi: oltre l'88% nel caso di Claude Opus 4.8 e oltre il 93% per Fable 5. Tuttavia, sono state individuate centinaia di risposte dannose ottenute tramite tecniche automatizzate.

Lo studio evidenzia inoltre che i tradizionali metodi di aggiramento basati su codifiche e artifici linguistici sono ormai in gran parte neutralizzati, mentre restano efficaci gli attacchi adattivi, capaci di apprendere dalle risposte del modello e modificare progressivamente la propria strategia.

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Other newsrooms on this story

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersecurity, da AI4I valutazione su robustezza modelli di frontiera

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si…

L'AI ha accorciato la finestra dello zero-day, ma i vendor sono pronti (in…

Come l’AI for Security ridefinisce i confini della difesa cibernetica -…

Sicurezza AI, i limiti strutturali dei guardrail nei modelli generativi -…

Other newsrooms on this story

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersecurity, da AI4I valutazione su robustezza modelli di frontiera

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si…

L'AI ha accorciato la finestra dello zero-day, ma i vendor sono pronti (in…

Come l’AI for Security ridefinisce i confini della difesa cibernetica -…

Sicurezza AI, i limiti strutturali dei guardrail nei modelli generativi -…