Una delle uscite pubbliche più preziose di Sam Altman fu quando disse che le allucinazioni, ovvero le risposte sbagliate date con sicurezza dai chatbot, non erano appunto errori da correggere ma caratteristiche della tecnologia. Qualche anno fa qualcuno sorrise perché sembrò una formula furba e assolutoria per lanciare ChatGPT, oggi invece abbiamo capito che le allucinazioni sono errori patologici che possono essere curati ma non guariti del tutto. Almeno finora.

A distanza di tre anni dal lancio di ChatGPT, OpenAI ha pubblicato un’analisi che prova a spiegare meglio perché i modelli di AI tendono a sbagliare, per esempio inventando dettagli che non esistono o confondendo i termini della domanda. E prova a suggerire una soluzione per rendere l’AI più affidabile. Ma partiamo prima dalle basi.

Un’allucinazione si verifica quando «un modello genera con sicurezza una risposta che non è vera», identificando l’origine del problema nelle procedure standard di addestramento e valutazione. Secondo l’azienda di Sam Altman, infatti, si tratterebbe di un effetto collaterale dell’addestramento. I modelli imparano dalle statistiche dei dati e vengono valutati su benchmark che premiano più la prontezza che l’astensione. Se non c’è credito per dire «non lo so», conviene sempre provare a rispondere. Sostanzialmente, in questo modo, i modelli di AI «premiano le supposizioni rispetto al riconoscimento dell’incertezza». Immaginate un test a risposta multipla: se non si sa la risposta, il modello preferisce mettere una crocetta a caso rispetto a lasciare in bianco la casella, perché statisticamente ha più probabilità di indovinare.