Anthropic propone regole per bloccare i modelli AI pericolosi e ammette l'errore su Fable 5

Anthropic ha pubblicato un Advanced AI Framework che propone di dare ai governi il potere di bloccare il lo sviluppo e la diffusione di modelli AI giudicati pericolosi. Il documento introduce anche un Economic Policy Framework separato, dedicato al problema occupazionale e alla distribuzione del capitale generato dall'AI. Il campo di applicazione � volutamente ristretto: i requisiti si rivolgono ai soli modelli addestrati con oltre 10�⁵ operazioni floating-point, sviluppati da aziende con ricavi AI superiori a 500 milioni di dollari o investimenti in ricerca superiori a un miliardo. Con questi presupposti, per ammissione del documento stesso, ad essere realmente interessate sono appena cinque aziende: Anthropic, OpenAI, Google DeepMind, xAI e, potenzialmente, Meta. Il framework classifica quattro categorie di rischio catastrofico: sviluppo di armi biologiche, scoperta di vulnerabilit� informatiche su larga scala, perdita di controllo su sistemi autonomi, e AI che automatizza la propria ricerca e sviluppo. A sostegno dell'urgenza, il documento cita i risultati di Claude Mythos Preview: migliaia di vulnerabilit� ad alta gravit� scoperte in ogni sistema operativo e browser principale. Le obbligazioni proposte per chi sviluppa modelli di frontiera includono il testing dei modelli, la pubblicazione dei risultati, l'esposizione a valutazioni indipendenti, la gestione di programmi di sicurezza e la pubblicazione di report sui rischi. Le sanzioni previste sono penalit� civili proporzionate al fatturato globale annuo, con escalation in caso di violazioni reiterate. Sul versante legislativo statunitense, Anthropic si oppone esplicitamente alla prelazione federale delle leggi statali senza l'adozione di una normativa federale almeno altrettanto stringente del framework proposto. Per il fronte economico, le misure indicate comprendono assicurazioni salariali, incentivi fiscali e l'ampliamento delle reti di protezione sociale per chi perde il lavoro a causa dell'automazione. Il mea culpa su Fable 5 In parallelo, Anthropic ha modificato il comportamento di Fable 5 in risposta alle critiche dei ricercatori. Secondo la ricostruzione di Engadget, il modello gestiva in modo non documentato alcune categorie di richiesta: per attivit� come il training di modelli concorrenti, il debug di codice AI e l'ottimizzazione di architetture neurali, Fable 5 reindirizzava silenziosamente le sessioni a un modello di categoria inferiore o rifiutava la risposta, senza alcuna notifica all'utente e spesso in situazioni di falsi positivi. La critica si � concentrata sull'assenza di trasparenza. Anthropic ha riconosciuto l'errore, ammettendo di aver sbagliato il bilanciamento e di non aver trovato l'equilibrio giusto, e ha chiarito che la scelta iniziale di mantenere invisibili i safeguard dipendeva dall'intenzione di rilasciare il modello rapidamente riducendo i falsi positivi. Nella versione corretta, quando i classificatori di Fable 5 rilevano richieste legate a cybersicurezza, biologia e chimica, o distillazione, la risposta viene gestita automaticamente da Claude Opus 4.8, con notifica esplicita all'utente. I dati preliminari indicano che oltre il 95% delle sessioni non comporta alcun fallback. Mythos 5, variante con i safeguard di cybersicurezza rimossi, resta disponibile per i partner Glasswing.

Anthropic propone regole per bloccare i modelli AI pericolosi e ammette l'errore su Fable 5

Other newsrooms on this story

Related reading

Controlli export AI: cosa insegna il blocco dei modelli Anthropic - AI4Business

Regolamentazione AI di Anthropic: governi potranno bloccare i modelli pericolosi

Perché Anthropic blocca l’accesso ai modelli AI Fable 5 e Mythos 5

Anthropic e le nuove regole per l’intelligenza artificiale di frontiera -…

Il caso di Anthropic: dopo tre giorni gli Stati Uniti bloccano Fable 5, la loro…

IA, gli Usa fermano i modelli più avanzati di Anthropic: stop globale per…