Risolti solo sei quesiti su dieci. Ecco la sua difesa: "Gara truccata e non hanno ammesso i modelli specialistici"

Segui Il Giornale su Google Discover

Scegli Il Giornale come fonte preferita

Claude e ChatGpt non l'hanno presa affatto bene. Si sono messe a contestare i titoli "trionfalistici" delle agenzie, perché quello che è successo svela qualcosa di più sottile di quel che sembra.La notizia è che l'intelligenza artificiale è stata sconfitta in una sfida matematica. Il test si chiama First Proof. Lo hanno ideato un gruppo di matematici di primo piano, e i dieci problemi non sono esercizi da manuale né quesiti da competizione: sono veri lemmi, piccole dimostrazioni intermedie che gli autori hanno incontrato lavorando alle proprie ricerche: combinatoria algebrica, teoria spettrale dei grafi, topologia algebrica, analisi stocastica, geometria simplettica, teoria delle rappresentazioni. Roba che vive nelle riviste specialistiche, non su Internet.Era questa la trappola. Tenere le risposte segrete fino all'ultimo significava chiedere alle macchine di pensare, non di ricordare, perché un'intelligenza artificiale che non ha mai letto la soluzione non può fingere di saperla. È un test di intuizioni e non di memoria. La macchina sa fare tutto il lavoro che viene dopo, eseguire, controllare, raffinare in infiniti scambi di messaggi, ma non sa avere l'idea, perché l'idea non era scritta da nessuna parte e nessuno gliela poteva insegnare.Si sono presentati in quattro. ChatGpt 5.5 Pro di OpenAI (l'unico colosso a scendere in campo) e tre sistemi accademici cresciuti sopra i chatbot già esistenti, costruiti a Los Angeles, a Princeton, a Zurigo. Ha vinto il Politecnico federale di Zurigo, sei problemi su dieci, e non con un cervello solitario ma con un piccolo parlamento di macchine. ChatGpt da solo, senza quel coro, è arrivato terzo. Ultimo il sistema di Princeton, che girava su Gemini.Sei su dieci. Nel test più severo mai costruito, con trenta matematici in carne e ossa a correggere i compiti, la macchina ha lasciato sul tavolo quasi metà delle domande.