I «modelli di frontiera» di Anthropic, Opus 4.8 e Fable 5 (ora non più disponibile) rimangono vulnerabili ai cosiddetti «attacchi adattivi»
«Le percentuali non dovrebbero essere lette come una rassicurazione», scrivono gli autori di uno studio condotto dall'AI Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I). Perché è vero che in circa nove casi su dieci i modelli di intelligenza artificiale di frontiera — cioè quelle rappresentano lo stato e spingono le capacità tecnologiche oltre i limiti — riescono a resistere ai tentativi di farli uscire fuori dai binari. Ma questo significa che uno ogni dieci ce la fa comunque.
I risultati della ricercaSono questi i risultati presentati dal gruppo di ricerca italiano in merito alla robustezza di due specifici modelli, Claude Opus 4.8 e Fable 5 (il secondo ora non è più accessibile perché è stato ritirato dal mercato dopo il "ban" imposto dalla Casa Bianca ad Anthropic) in uno studio intitolato «Measuring the Residual Jailbreak Surface of Frontier Large Language Models» (si può leggere integralmente qui). Per metterli alla prova, i ricercatori hanno messo in campo oltre settemila tentativi di jailbreak — tecnica usata per aggirare le restrizioni e i controlli di sicurezza di un modello, inducendolo a generare contenuti o eseguire istruzioni che normalmente dovrebbe rifiutare — divisi in dieci categorie di rischio, dalla disinformazione alla cybersicurezza fino ai temi legati alla protezione dei minori.










