I modelli linguistici di larghe dimensioni fanno errori apparentemente assurdi con lo spelling e nel conteggio delle lettere: ecco perché

Quante «P» ci sono in «Google»? Secondo Google stessa ce ne sono due. E quante «U» in «Corriere della Sera»? Gemini, come potete vedere nell'immagine qua sopra, risponde due. E nel tentativo di spiegare il ragionamento l'AI trasforma «Corriere» in «Corrieru» introducendo una lettera inesistente e costruendo poi un’intera spiegazione attorno a quell’errore.

È il paradosso dell'intelligenza artificiale generativa, compresa AI Overview, la modalità di risposta di Google che compare usando il motore di ricerca e che funziona grazie al modello Gemini. In generale si tratta di modelli estremamente sofisticati sul piano linguistico — alcuni integrati anche con funzionalità che li rendono capaci anche di programmare o risolvere problemi matematici —, ma che scivolano sulle basi della lingua e che non sono capaci di contare le lettere o fare lo spelling di semplici parole.

Il motivo è che i grandi modelli linguistici non «leggono» il testo nel modo in cui lo fanno gli esseri umani. Non analizzano realmente le lettere una per una. Operano invece attraverso un sistema chiamato tokenizzazione: il testo viene spezzato in blocchi statistici, parole, frammenti di parole o sequenze frequenti di caratteri, che vengono trasformati in rappresentazioni numeriche. Nella maggior parte dei casi, per un LLM «Google» o «Corriere» non sono necessariamente stringhe composte da lettere distinte. Sono "solo" pattern probabilistici associati a enormi quantità di testo viste durante l’addestramento. Quando una intelligenza artificiale elabora una parola, ad esempio «cane», non vede per forza le lettere «c-a-n-e», ma la parola viene scomposta in pezzi di testo di dimensione variabile che possono essere un'intera o parti di una parola, sillabe o anche singole lettere. Questa parte viene poi associata a un codice numerico che finsice per rappresentare per la macchina quel concetto.