Negli ultimi due anni il dibattito sull’intelligenza artificiale si è concentrato soprattutto sulle capacità dei modelli generativi: prestazioni sempre più elevate, agenti autonomi, multimodalità, coding avanzato e automazione cognitiva. Ma mentre l’attenzione pubblica resta focalizzata su ciò che l’AI è in grado di fare, nel mondo della ricerca e della governance sta emergendo una domanda ancora più importante: come possiamo fidarci delle valutazioni che misurano queste capacità e questi rischi?La questione non è marginale. Oggi gran parte delle decisioni normative, industriali e strategiche relative all’AI dipende dai risultati di benchmark, audit, red teaming e valutazioni di sicurezza. Se queste valutazioni non sono robuste, indipendenti e replicabili, anche le conclusioni che ne derivano rischiano di essere fuorvianti.Per questo motivo cresce il consenso attorno alla necessità di sviluppare un ecosistema di third-party evaluations, ossia valutazioni indipendenti condotte da soggetti esterni rispetto ai produttori dei modelli. Un tema che sta diventando centrale sia nella ricerca internazionale sia nelle discussioni regolatorie che accompagnano l’attuazione dell’AI Act europeo e al quale OpenAI ha dedicato uno studio datato 29 maggio 2026.Indice degli argomenti: