OpenAI ha finalmente gettato la maschera. Dopo alcune dichiarazioni di Sam Altman, la conferma è arrivata da un paper scritto proprio dai ricercatori della sua azienda. Le allucinazioni dei chatbot si possono ridurre, ma non sono risolvibili con l’approccio attuale ai LLM. A meno che a cambiare sia l’idea stessa che sta alla base dell’attuale ChatGpt: ovvero che il chatbot fornisca una risposta a ogni domanda.In un paio d’anni il concetto di “allucinazione” dell'AI è diventato di dominio pubblico. Secondo Comscore, ad aprile di quest'anno circa 11 milioni di italiani avevano utilizzato ChatGpt, auspicabilmente rendendosi conto che le risposte ricevute non erano sempre corrette. Il 68% lo usa infatti per cercare informazioni. Non a caso, il problema, inizialmente considerato appannaggio degli addetti ai lavori, è stato spesso portato come argomentazione principale per un uso consapevole della tecnologia. In particolar modo quando le aziende che producono AI generativa descrivono come imminente un mondo in cui gli agenti alimentati da questi algoritmi cambieranno il mondo per come lo conosciamo.Un problema noto da tempoLa ricerca, sia empirica che accademica, non manca. Già due anni fa in molti avevano notato che diversi libri scritti con l’AI generativa erano in cima ad alcune classifiche di vendita su Amazon. Uno, in particolare, riportava tra gli autori nomi inventati e una serie di indicazioni sbagliate su come riconoscere i funghi tossici da quelli commestibili. Il caso, riportato da 404 Media, fornì un esempio di come l’impressione di ricevere informazioni corrette, ma che in realtà sono solo verosimili, possa creare danni piuttosto gravi.Diversi addetti ai lavori avevano dimostrato che il verificarsi delle allucinazioni – errori fattuali nelle sequenze di parole presentate su base statistica dagli LLM – era inevitabile. Si tratta di un limite strutturale non superabile con l’aumento della quantità di dati o della capacità computazionale. La novità è che, fino a poco tempo fa, le compagnie che progettano questi prodotti avevano ridimensionato il problema, mentre ora persino OpenAI ammette che per risolverlo bisognerebbe cambiare il funzionamento del suo modello. Per semplificare, si tratta di un problema strutturale, come dichiarato da anni da, tra gli altri, Gary Marcus.Secondo i ricercatori di OpenAI, le allucinazioni “hanno origine semplicemente come errori nella classificazione binaria”. Quando il modello non può fornire risposte a determinate domande – in alcuni casi perché le risposte non sono disponibili, in altre per la struttura del training – tira a indovinare. Come esempio portano le risposte alla domanda posta riguardo alla tesi di dottorato di uno dei firmatari della ricerca, a cui il chatbot continuava a rispondere con titoli sbagliati.La spiegazione è che, per fare un altro esempio, quando viene richiesta la data di nascita di qualcuno, inventare la risposta dà una possibilità su 365 di avere una risposta corretta (e quindi un reward in fase di training), mentre rispondere “non lo so” darebbe sicuramente zero punti (nessun reward). A livello puramente statistico è ovviamente più probabile azzeccare una risposta inventata che ammettere di non sapere. In uno slancio di antropomorfizzazione, i ricercatori lo definiscono un comportamento simile a quello di uno studenti che inventa la risposta alla domanda difficile di un esame. Tuttavia, assegnare caratteristiche umane ai sistemi informatici è un fenomeno piuttosto pericoloso perché ci allontana dalla comprensione dei processi che ne determinano il funzionamento. In questo caso però l’analogia aiuta a capire, perché tra i criteri di valutazione di queste tecnologie ci sono appunto dei test, su cui le macchine sono addestrate a realizzare il punteggio più alto. Non si tratta di limiti validi solo per ChatGpt, ma per tutti i modelli più diffusi; i ricercatori ne analizzano infatti dieci.Per ovviare al problema, i ricercatori propongono un approccio diverso: penalizzare le risposte sbagliate date con sicurezza più delle mancate risposte, o meglio, delle risposte che ammettono di non sapere. Questo significherebbe rivedere gli attuali modelli di valutazione delle performance. Attualmente infatti, i LLM vengono addestrati a predire la parola successiva in una data sequenza, o in una frase nel linguaggio naturale. La conclusione dei ricercatori è che nessun modello raggiungerà mai il 100% di affidabilità perché alcune domande, soprattutto quelle legate al mondo reale, non hanno risposte certe o calcolabili, anche con tutti i dati possibili a disposizione. Ma se la risposta a una data domanda non è calcolabile, e i diversi LLM non tentano più di “indovinarla” su base statistica, cosa succede all’esperienza degli utenti?Come scrive su The Conversation Wei Xing, Assistant Professor alla School of Mathematical and Physical Sciences dell’University of Sheffield, la soluzione proposta da OpenAI potrebbe letteralmente determinare la fine di ChatGpt. Immaginate di ricevere in continuazione risposte ambigue, o ammissioni di ignoranza, dal chatbot che consultate per trovarle. Nel suo articolo spiega che “non sarebbe difficile ridurre le allucinazioni utilizzando le intuizioni dello studio. Metodi consolidati per quantificare l'incertezza esistono da decenni. Questi potrebbero essere utilizzati per fornire stime affidabili dell'incertezza e guidare un'AI a prendere decisioni più intelligenti.”Il problema è invece di tipo economico. Modelli in grado di valutare diverse risposte possibili e di stimare un grado di ragionevole sicurezza nella risposta sarebbero estremamente costosi dal punto di vista computazionale. Se questo può essere ipotizzabile per chi si occupa di infrastrutture critiche a livello logistico, medico o finanziario, di certo non lo è per le centinaia di migliaia di utenti che chiedono ad un chatbot cose che fino a poco prima chiedere a Google.A quel punto ricevere una risposta incerta, soprattutto per un utente con conoscenze limitate su un dato ambito, creerebbe una insoddisfazione nei confronti del chatbot, con un presumibile calo in termini di utilizzo. Immaginate se ChatGpt rispondesse a una domanda su quattro con “Non lo so”, lo usereste ancora? Dal punto di vista dell'utilizzo consapevole dello strumento, sicuramente sarebbe un passo avanti, ma la frizione tra costi e adozione da parte degli utenti rimane una delle questioni più importanti per i produttori di chatbot, strumenti che ad oggi costano molto di più di quello che fanno incassare.
OpenAI preferisce che ChatGpt abbia le allucinazioni piuttosto che risponda “non so”
Un paper dell'azienda di Sam Altman spiega perché i chatbot non raggiungeranno mai il 100% di precisione






