Claude Sonnet 5 system card, benchmark e confronto con GPT-5.5 - AI4Business

Su un solo benchmark, quello sul lavoro di conoscenza chiamato GDPval-AA v2, Sonnet 5 supera Opus 4.8: 1.618 punti contro 1.615. Un margine minimo, quasi statisticamente irrilevante, ma il fatto che accada dentro la stessa tabella comparativa dice già qualcosa sulla strategia di Anthropic. Il documento, un centinaio di pagine dense di soglie RSP, tabelle di valutazione e note metodologiche, arriva insieme all’annuncio pubblico del modello e descrive un system card costruito attorno a un Sonnet pensato per fare, non solo per rispondere: pianifica, apre un terminale, guida un browser, e lo fa in autonomia su archi di tempo che fino a pochi mesi fa richiedevano modelli più grandi e più costosi.

Claude Sonnet 5 system card, benchmark e confronto con GPT-5.5 - AI4Business

Claude Sonnet 5 system card, benchmark e confronto con GPT-5.5 - AI4Business

Other newsrooms on this story

Related reading

Claude Sonnet 5: Anthropic stringe il divario con Opus sui costi - Agenda…

Ecco Claude Sonnet 5, Anthropic scommette sugli agenti AI

Anthropic ships Claude Opus 4.8 as a "modest but tangible improvement" that…

Claude Sonnet 5 continues Anthropic's pattern of hiding price increases behind…

Anthropic's new Claude Sonnet 5 closes the gap to the pricier Opus model series

GPT-5.6: la sicurezza si sposta dal modello al deployment - AI4Business

Related reading

Claude Sonnet 5: Anthropic stringe il divario con Opus sui costi - Agenda…

Ecco Claude Sonnet 5, Anthropic scommette sugli agenti AI

Anthropic ships Claude Opus 4.8 as a "modest but tangible improvement" that…

Claude Sonnet 5 continues Anthropic's pattern of hiding price increases behind…

Anthropic's new Claude Sonnet 5 closes the gap to the pricier Opus model series

GPT-5.6: la sicurezza si sposta dal modello al deployment - AI4Business

Other newsrooms on this story