Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si fa "corrompere". Lo studio italiano

I «modelli di frontiera» di Anthropic, Opus 4.8 e Fable 5 (ora non più disponibile) rimangono vulnerabili ai cosiddetti «attacchi adattivi»

«Le percentuali non dovrebbero essere lette come una rassicurazione», scrivono gli autori di uno studio condotto dall'AI Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I). Perché è vero che in circa nove casi su dieci i modelli di intelligenza artificiale di frontiera — cioè quelle rappresentano lo stato e spingono le capacità tecnologiche oltre i limiti — riescono a resistere ai tentativi di farli uscire fuori dai binari. Ma questo significa che uno ogni dieci ce la fa comunque.

I risultati della ricercaSono questi i risultati presentati dal gruppo di ricerca italiano in merito alla robustezza di due specifici modelli, Claude Opus 4.8 e Fable 5 (il secondo ora non è più accessibile perché è stato ritirato dal mercato dopo il "ban" imposto dalla Casa Bianca ad Anthropic) in uno studio intitolato «Measuring the Residual Jailbreak Surface of Frontier Large Language Models» (si può leggere integralmente qui). Per metterli alla prova, i ricercatori hanno messo in campo oltre settemila tentativi di jailbreak — tecnica usata per aggirare le restrizioni e i controlli di sicurezza di un modello, inducendolo a generare contenuti o eseguire istruzioni che normalmente dovrebbe rifiutare — divisi in dieci categorie di rischio, dalla disinformazione alla cybersicurezza fino ai temi legati alla protezione dei minori.

I «modelli di frontiera» di Anthropic, Opus 4.8 e Fable 5 (ora non più disponibile) rimangono vulnerabili ai cosiddetti «attacchi adattivi»

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si fa "corrompere". Lo studio italiano

Claude Fable non era sicuro come diceva di essere: una volta su dieci l'AI si fa "corrompere". Lo studio italiano

Other newsrooms on this story

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Intelligenza artificiale, Anthropic lancia Mythos, ma col freno: la versione…

Anthropic alla fine rilascia Mythos, il temuto modello di AI che può…

Anthropic rilascia Claude Fable 5: cos’è il nuovo chatbot AI

I rischi dell'AI e di Claude Mythos, come li affronta Anthropic

Other newsrooms on this story

Related reading

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili -…

Cybersicurezza, modelli di Ia superano molti attacchi, ma restano vulnerabili

Intelligenza artificiale, Anthropic lancia Mythos, ma col freno: la versione…

Anthropic alla fine rilascia Mythos, il temuto modello di AI che può…

Anthropic rilascia Claude Fable 5: cos’è il nuovo chatbot AI

I rischi dell'AI e di Claude Mythos, come li affronta Anthropic