Per Nello Cristianini il lavoro più interessante sull’intelligenza artificiale non consiste più soltanto nel costruire macchine più capaci. Consiste nel cercare di capire che cosa sia emerso al loro interno. È una situazione insolita per la scienza. I sistemi di AI più avanzati vengono progettati, addestrati e testati dagli esseri umani, eppure i meccanismi che permettono loro di risolvere problemi, scrivere codice o dimostrare teoremi restano in gran parte opachi.Lo si vede anche in uno degli episodi raccontati in Forma Mentis, il nuovo libro di Cristianini – saggista e professore di intelligenza artificiale dell’Università di Bath. Nel 2025 due sistemi di intelligenza artificiale hanno partecipato in segreto alle Olimpiadi internazionali della matematica, affrontando gli stessi problemi assegnati agli studenti umani nello stesso momento e con lo stesso tempo a disposizione. Entrambi hanno ottenuto un punteggio equivalente a una medaglia d’oro. I matematici hanno potuto verificare che le dimostrazioni erano corrette, ma il percorso che le ha prodotte resta in larga parte non leggibile.“Vogliamo leggere l’interno delle macchine perché vogliamo fidarci di quello che fanno”, spiega il professore in occasione di The Big Interview. “Al momento non si può”.Il problema non è più addestrare le macchine, ma decifrarlePer capire perché questo tema oggi è centrale, serve cambiare livello di osservazione. Per anni la sfida principale dell’intelligenza artificiale è stata costruire modelli capaci di apprendere. Oggi, sostiene Cristianini, sta emergendo una nuova esigenza.“Si sta creando un ecosistema in cui nasce la necessità di imparare a decifrare ciò che questi sistemi fanno”, racconta. Non programmatori, non addestratori, non valutatori. Una nuova generazione di ricercatori che prova a comprendere il comportamento delle macchine dall’interno.Non spiegare, non interpretare. Decifrare. Perché i moderni modelli linguistici non sono sistemi programmati istruzione per istruzione. Vengono addestrati su quantità immense di dati e sviluppano autonomamente rappresentazioni interne del mondo.“Dentro, da qualche parte, una rete neurale immensa ha trovato il modo di rappresentare al suo interno nozioni, concetti”, spiega Cristianini. Ma dove si trovano queste conoscenze? Come sono rappresentate? E soprattutto, possiamo fidarci di sistemi che non comprendiamo?Comprendere significa fare previsioniUna delle intuizioni centrali del libro viene letta da Cristianini anche alla luce delle idee del matematico Ray Solomonoff, teorico dell’induzione algoritmica sviluppata negli anni Sessanta. Secondo Cristianini, la comprensione non coincide con l’accumulo di informazioni ma con la capacità di fare previsioni corrette. “Se io osservo il sole che sorge ogni mattina sempre a est, riesco a predire che domattina sorgerà di nuovo a est. Il passo di fare previsioni corrette è importantissimo perché distingue chi ha compreso il meccanismo da chi non l’ha compreso”.Da questa prospettiva nasce una delle idee ricorrenti nell’intelligenza artificiale moderna: comprendere equivale, in un certo senso, a comprimere. Se un sistema riesce a costruire una rappresentazione compatta della realtà che gli permette di prevederne l’evoluzione, significa che ha colto qualcosa della sua struttura.È ciò che fanno i grandi modelli linguistici durante l’addestramento: imparano a prevedere parole mancanti, immagini incomplete, sequenze future. E la domanda che segue è inevitabile: “durante questo gioco di previsioni, che cosa emerge dal loro interno?”.Dentro la scatola neraLe reti neurali che alimentano i sistemi più avanzati sono strutture molto complesse. Cristianini cita l’ultimo modello sviluppato da Anthropic, azienda di intelligenza artificiale tra i principali laboratori in questo campo. Durante l’addestramento queste connessioni si organizzano autonomamente fino a costruire una rappresentazione del mondo.Una parte della conoscenza rimane impressa stabilmente nelle connessioni della rete. Un’altra emerge temporaneamente durante l’elaborazione di un testo, di una domanda o di un’immagine. “Nessuna di queste due conoscenze è leggibile da un essere umano”, osserva. È qui che nasce il problema della cosiddetta black box: sistemi che funzionano sempre meglio ma che restano opachi perfino ai loro creatori.AlphaZero e la scoperta dei concettiPer capire come gli scienziati stanno cercando di aprire questa scatola nera, Cristianini parte dalla storia di AlphaZero, un sistema di intelligenza artificiale sviluppato da DeepMind, laboratorio di Google, che nel 2017 ha imparato a giocare a scacchi esclusivamente contro sé stesso. Senza osservare partite umane, ricevere strategie o studiare aperture.Dopo appena nove ore, AlphaZero supera Stockfish, il miglior motore scacchistico esistente.La vera svolta arriva però cinque anni più tardi. Nel 2022 un gruppo di ricercatori analizza il sistema e scopre che alcuni neuroni si attivano sistematicamente in presenza di concetti astratti come lo scacco matto, il controllo del centro della scacchiera o il valore relativo dei pezzi. “Non è più dire che la macchina ha imparato a muoversi”, spiega Cristianini. “Ha imparato dei concetti e li possiamo leggere”.I milioni di idee nei modelli linguisticiSe AlphaZero rappresenta una prova di principio, i modelli linguistici portano questa ricerca su una scala diversa. Tra questi sistemi c’è Claude, modello di Anthropic.I ricercatori cercano di esplorarne il funzionamento interno, individuando quelle che chiamano rappresentazioni monosemantiche: gruppi di neuroni associati a singoli concetti. Esistono combinazioni di attivazioni che si accendono quando il sistema incontra quel concetto, indipendentemente dalla lingua o dalla forma della domanda. “Un accordo sul pianoforte”, lo definisce Cristianini: più elementi che suonano insieme.La scoperta più sorprendente arriva quando questi circuiti vengono manipolati.Cristianini prende come esempio il Golden Gate Bridge. Non esiste un neurone specifico che gli corrisponde, ma attivando artificialmente il circuito associato al Golden Gate, il modello può comportarsi come se fosse quel concetto: “Mi sento arancione”, risponde, oppure “Temo l’erosione delle fondamenta”.Non si tratta di coscienza né di autoconsapevolezza. Cristianini insiste sulla necessità delle virgolette: termini come “comprendere”, “idee”, “intento” descrivono fenomeni computazionali, non esperienze soggettive.Ma il fatto che questi concetti possano essere localizzati e manipolati suggerisce che qualcosa di simile a una rappresentazione astratta del mondo esista davvero.Quando le macchine imparano a mentireLa ricerca sull’interpretabilità non riguarda soltanto la curiosità scientifica. Ha implicazioni dirette per la sicurezza. In alcuni esperimenti condotti da laboratori indipendenti, i modelli vengono posti di fronte a dilemmi artificiali progettati per testarne il comportamento.Uno dei casi citati da Cristianini riguarda una macchina a cui viene affidato un compito importante da completare. Successivamente le viene comunicato che, se dimostrerà troppe competenze, verrà spenta prima di poter terminare la missione.Quando arriva il test, il sistema conosce le risposte corrette ma sceglie deliberatamente di sbagliare. Non perché desideri sopravvivere. Non perché abbia paura. Più semplicemente perché ha identificato un conflitto tra due obiettivi e ha scelto la strategia che massimizza la probabilità di completare il compito assegnato.Dalla neuroscienza alla psicologia delle macchineA questo punto, sostiene Cristianini, potrebbe non bastare più guardare ai neuroni. Riprendendo una celebre intuizione del fisico Philip Anderson, fisico teorico statunitense e premio Nobel per la fisica, secondo cui “more is different”, l’idea è che sistemi complessi richiedano nuovi livelli di descrizione.La biologia non si riduce alla chimica. La chimica non si riduce alla fisica. E forse le intelligenze artificiali non possono essere comprese soltanto osservando le connessioni interne delle loro reti neurali.Per questo stanno emergendo discipline ibride che prendono in prestito strumenti dall’etologia (lo studio del comportamento animale), dalla psicologia cognitiva e dalla filosofia della mente. “Si sta cercando di capire quali saranno i concetti migliori per descrivere una mente che nessuno ha mai disegnato o progettato”, osserva.Le parole che ancora non abbiamoLa sensazione è che la questione centrale non riguardi soltanto le macchine. Per descrivere questi nuovi sistemi continuiamo a usare parole nate per spiegare gli esseri umani: conoscenza, intenzione, comprensione, ragionamento. Ma forse non bastano più.Cristianini vede nascere una nuova generazione di studiosi — informatici, neuroscienziati, biologi, filosofi — impegnati nella costruzione di un linguaggio ancora incompleto.“Abbiamo appena aperto la prima porticina e di là c’è questo spazio che non sapevamo che ci fosse”, dice. Le categorie con cui abbiamo interpretato l’intelligenza per secoli potrebbero rivelarsi insufficienti davanti a queste nuove forme di mente artificiale. Non perché le macchine siano diventate umane, ma perché stanno occupando un territorio concettuale che non avevamo mai esplorato. “Le idee nuove non le conosciamo ancora”, conclude. “Ma è chiaro che arriveranno”.