Su un solo benchmark, quello sul lavoro di conoscenza chiamato GDPval-AA v2, Sonnet 5 supera Opus 4.8: 1.618 punti contro 1.615. Un margine minimo, quasi statisticamente irrilevante, ma il fatto che accada dentro la stessa tabella comparativa dice già qualcosa sulla strategia di Anthropic. Il documento, un centinaio di pagine dense di soglie RSP, tabelle di valutazione e note metodologiche, arriva insieme all’annuncio pubblico del modello e descrive un system card costruito attorno a un Sonnet pensato per fare, non solo per rispondere: pianifica, apre un terminale, guida un browser, e lo fa in autonomia su archi di tempo che fino a pochi mesi fa richiedevano modelli più grandi e più costosi.