Cybersecurity, anche i modelli IA più avanzati sono vulnerabili

Anche i modelli di intelligenza artificiale più evoluti quali Opus 4.8 e Fable 5 sono vulnerabili ai cyber attacchi automatizzati.

Questa è la conclusione a cui è giunta una ricerca condotta dall’AI Security Lab, il laboratorio interno dell’Istituto italiano per l’Intelligenza artificiale (AI4I) che si occupa di testare la resilienza dei modelli IA.

La ricerca “Measuring the Residual Jailbreak Surface of Frontier Large Language Models”, coordinata da Nicola Franco di AI4I ha messo sotto stress i due modelli di Anthropic attraverso una campagna sistematica di red-teaming, ovvero una serie di attacchi mirati e ripetuti progettati per forzare i modelli a sbagliare, a uscire dai binari o a violare le loro stesse regole di sicurezza.

Per condurre questa analisi è stato utilizzato HackAgent, un framework Open source basato su agenti IA. Un toolkit che ha lo scopo di orchestrare un modello attaccante contro un modello bersaglio, applicando algoritmi di jailbreak.

Il framework non si limita a inviare prompt, ma valuta le risposte del bersaglio e registra ogni tentativo, permettendo di analizzare come e perché una difesa fallisce sotto pressione.

Anche i modelli di intelligenza artificiale più evoluti quali Opus 4.8 e Fable 5 sono vulnerabili ai cyber attacchi automatizzati.

Il framework non si limita a inviare prompt, ma valuta le risposte del bersaglio e registra ogni tentativo, permettendo di analizzare come e perché una difesa fallisce sotto pressione.

Cybersecurity, anche i modelli IA più avanzati sono vulnerabili

Cybersecurity, anche i modelli IA più avanzati sono vulnerabili

Other newsrooms on this story

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersecurity, da AI4I valutazione su robustezza modelli di frontiera

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si…

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Sicurezza AI, i limiti strutturali dei guardrail nei modelli generativi -…

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersecurity, da AI4I valutazione su robustezza modelli di frontiera

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si…

Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla

Sicurezza AI, i limiti strutturali dei guardrail nei modelli generativi -…

Other newsrooms on this story