Il 9 giugno 2026 Anthropic ha lanciato Claude Fable 5, variante pubblica del modello riservato Claude Mythos 5.

L’obiettivo era rendere accessibili capacità avanzate in programmazione, ricerca scientifica e analisi complessa, introducendo al tempo stesso controlli automatici per limitare usi ad alto rischio in settori come cybersicurezza, biologia e chimica.

Poche ore dopo il rilascio, ricercatori, sviluppatori e specialisti di sicurezza hanno iniziato a segnalare comportamenti inattesi e un numero elevato di falsi positivi, scatenando un dibattito che ha costretto l’azienda a rivedere rapidamente le proprie scelte.

Falsi positivi e classificatori troppo aggressivi

Anthropic aveva dichiarato che meno del 5% delle sessioni avrebbe attivato i meccanismi di fallback, con reindirizzamento automatico verso il modello meno potente Claude Opus 4.8.