Anche i modelli di intelligenza artificiale più evoluti quali Opus 4.8 e Fable 5 sono vulnerabili ai cyber attacchi automatizzati.
Questa è la conclusione a cui è giunta una ricerca condotta dall’AI Security Lab, il laboratorio interno dell’Istituto italiano per l’Intelligenza artificiale (AI4I) che si occupa di testare la resilienza dei modelli IA.
La ricerca “Measuring the Residual Jailbreak Surface of Frontier Large Language Models”, coordinata da Nicola Franco di AI4I ha messo sotto stress i due modelli di Anthropic attraverso una campagna sistematica di red-teaming, ovvero una serie di attacchi mirati e ripetuti progettati per forzare i modelli a sbagliare, a uscire dai binari o a violare le loro stesse regole di sicurezza.
Per condurre questa analisi è stato utilizzato HackAgent, un framework Open source basato su agenti IA. Un toolkit che ha lo scopo di orchestrare un modello attaccante contro un modello bersaglio, applicando algoritmi di jailbreak.
Il framework non si limita a inviare prompt, ma valuta le risposte del bersaglio e registra ogni tentativo, permettendo di analizzare come e perché una difesa fallisce sotto pressione.








