Martedì 9 giugno Anthropic ha lanciato due nuovi modelli di intelligenza artificiale, Claude Fable 5 e Claude Mythos 5, presentandoli come superiori rispetto a Mythos preview. Il precedente sistema era stato distribuito ad aprile a un gruppo ristretto di partner del settore tecnologico, per il timore che potesse essere sfruttato da soggetti malintenzionati per sviluppare strumenti in grado di sferrare attacchi informatici.Per il momento anche Claude Mythos 5 sarà utilizzabile solo da un gruppo ristretto di partner, molti dei quali avevano già avuto accesso a Mythos preview. L’azienda afferma inoltre aver avviato una collaborazione con il governo degli Stati Uniti per distribuire il modello.Il compromesso di Fable 5Claude Fable 5, che invece sarà disponibile al pubblico, si basa sullo stesso modello di Mythos 5, ma sarà dotato di una serie di “misure di protezione” progettate per impedire al sistema di rispondere a molte domande degli utenti relative a sicurezza informatica, biologia e chimica. Le richieste di questo tipo saranno invece indirizzate a un modello precedente, Claude Opus 4.8, come anche i sospetti tentativi di distillazione, come viene definita la pratica che consiste nell'addestrare un modello AI più piccolo usando le risposte fornite da un sistema più grande.In un’intervista rilasciata a Wired, Diane Penn, responsabile del product management di Anthropic, spiega che già prima del lancio di aprile l’azienda aveva iniziato a interrogarsi su come gestire la capacità di Mythos di individuare vulnerabilità software e le sue altre funzioni avanzate. Da allora, però, i test e i riscontri degli utenti hanno aiutato la società a perfezionare la propria strategia.“Stiamo cercando di migliorare il modello in modo utile, anche se all’inizio non abbiamo una soluzione perfetta per ogni caso d’uso”, dice Penn. “Tra i vari approcci possibili, questo è emerso come il più praticabile e convincente. Alla fine ci siamo convinti che fosse la scelta migliore per permettere agli utenti di sfruttare al massimo Fable 5”.Per il momento, spiega Penn, il meccanismo di protezione del Fable 5 è progettato per muoversi con la massima prudenza. Questo significa che alcune richieste degli utenti potrebbero essere reindirizzate al modello AI meno potente anche quando non contengono nulla di problematico. Secondo il dirigente, questo era l’unico modo per rendere il modello disponibile su larga scala in modo sicuro.Martedì l’azienda ha reso noto che Claude Mythos 5 sarà messo a disposizione di “ricercatori selezionati nel campo della biologia”, oltre che ai partner di Project Glasswing. In un post pubblicato sul blog aziendale, Anthropic ha inoltre precisato che fornirà a questi gruppi ristretti di clienti una versione senza restrizioni della sua AI “fino a quando non sarà disponibile il nostro programma di accesso controllato”, lasciando intendere di voler ampliare ulteriormente l’accesso in futuro. Dal lancio di Mythos ad aprile, Anthropic ha sottolineato più volte che prima o poi altre aziende finiranno per offrire sistemi con capacità paragonabili a quelle di Mythos.Il rischio di un rilascio più ampioIl fatto che Claude Mythos e altri recenti modelli AI siano in grado di progettare strumenti per individuare e sfruttare vulnerabilità nei software ha spinto aziende tecnologiche e governi di tutto il mondo a rafforzare le proprie difese prima che sistemi di questo livello finiscano nelle mani sbagliate. Anthropic aveva inizialmente distribuito Mythos a una serie di organizzazioni del settore tech attraverso Project Glasswing, con l’obiettivo di garantire ai partner un vantaggio temporale per preparare i propri sistemi e valutare possibili strategie di gestione delle minacce prima di un rilascio più ampio.“Stiamo lavorando il più in fretta possibile per rendere accessibili in modo sicuro, su larga scala, capacità paragonabili a quelle di Mythos. Per riuscirci serviranno misure di protezione estremamente solide, capaci di impedire un uso improprio delle capacità del modello, misure che noi (e per quanto ne sappiamo anche tutti gli altri sviluppatori di AI) dobbiamo ancora sviluppare”, aveva scritto Anthropic in un aggiornamento su Project Glasswing della scorsa settimana.Secondo Anthropic, Claude Fable 5 – il cui nome ("favola") richiama un genere letterario, come nel caso di altri prodotti dell'azienda – offre prestazioni migliori nello sviluppo software e nelle attività in cui è richiesto di interpretare contenuti visivi. Progressi che però hanno un prezzo: Claude Fable 5 e Claude Mythos 5 costeranno agli sviluppatori 10 dollari per un milione di token in input e 50 dollari per la stessa quantità di token in output; si tratta del doppio rispetto ai modelli AI di Anthropic già disponibili al pubblico, ma comunque meno di Mythos preview.La scelta di lanciare Claude Fable 5 con alcune limitazioni mostra la tensione con cui Anthropic deve fare i conti sul piano commerciale. L’azienda vorrebbe rendere disponibile un modello AI del livello di Mythos prima che il settore tecnologico abbia trovato una risposta ai problemi di sicurezza informatica sollevati da questi sistemi. Ad aprile, anche OpenAI ha lanciato in forma privata un modello che, secondo l’azienda, possiede capacità avanzate nel campo della sicurezza informatica, formando un gruppo di lavoro simile a Project Glasswing. Sia OpenAI sia Anthropic hanno depositato in forma riservata la documentazione per una Ipo e stanno cercando di attirare i potenziali investitori prima di quotarsi in Borsa.Resta da capire quanto reggeranno davvero le misure di protezione di Claude Fable 5 una volta che saranno messe alla prova. Anthropic sostiene che, in oltre mille ore di red teaming, i suoi tester non hanno trovato jailbreak universali per il modello. Ma il timore di non riuscire a sviluppare protezioni adeguate era stato proprio uno dei motivi addotti qualche mese fa dall’azienda per spiegare la scelta di limitare modelli con capacità paragonabili a quelle di Mythos. Preoccupazioni che oggi non sembrano venute meno.Questo articolo è apparso originariamente su Wired US.