Allucinazioni AI in azienda, il costo nascosto della verifica umana - Agenda Digitale

Che un modello linguistico possa sbagliare è noto a chiunque abbia usato uno di questi strumenti anche solo per qualche settimana. Su questo ci si è interrogati molto, tecnicamente e persino filosoficamente. Ma la vera sorpresa, semmai, è quanto sistematicamente quegli errori vengano presi per buoni come niente fosse.Quello che è, poi, ancor più difficile quantificare con precisione sono le conseguenze economiche degli errori prodotti dai sistemi AI – e il fatto che le stime più citate in rete non reggano a un controllo delle fonti primarie è già, di per sé, un dato rivelatore.Si può, invece, documentare con precisione il meccanismo che genera quei costi.Indice degli argomenti

Le conseguenze negative dell’uso dell’Ai in aziendaLa fiducia mal riposta e i suoi paradossiDalle aule dei tribunali alle stanze dei governiAllucinazioni AI in azienda e nuovo lavoro umanoUn nuovo tipo di lavoro umanoLa domanda che dobbiamo smettere di evitareLe conseguenze negative dell’uso dell’Ai in aziendaSecondo il McKinsey Global Survey on AI — condotto nel 2024 su 1.491 professionisti in 101 paesi — il 47% delle organizzazioni ha già registrato almeno una conseguenza negativa dall’uso dell’AI generativa, con l’inaccuratezza degli output indicata tra i rischi più frequentemente esperiti. Lo stesso sondaggio documenta una crescita nella quota di aziende che dedicano risorse esplicite alla verifica e mitigazione degli errori prodotti dai sistemi AI: non in formazione, non in licenze software, non in infrastruttura — in controllo degli output.Il Microsoft Work Trend Index 2025, condotto su 31.000 knowledge worker in 31 paesi, aggiunge la dimensione individuale: la stragrande maggioranza dei lavoratori che usa l’AI riferisce di impiegare oggi più tempo a verificare e correggere i risultati del sistema di quanto ne risparmi grazie ad esso — un dato confermato anche da ricerche indipendenti, come quella di Section su 5.000 professionisti in UK, Canada e USA, secondo cui il 68% degli utenti AI risparmia meno di quattro ore settimanali, ben al di sotto delle promesse dei vendor.La somma di questi dati restituisce qualcosa che va oltre la statistica: un profilo economico preciso di come funziona, concretamente, l’adozione dell’AI in azienda. Non si tratta di un risparmio di risorse umane riallocate su compiti creativi o strategici. Si tratta, almeno in parte, di risorse umane impiegate a fare da guardie di confine agli errori del sistema che avrebbe dovuto renderle più libere.La fiducia mal riposta e i suoi paradossiChe un modello linguistico possa sbagliare è noto a chiunque abbia usato uno di questi strumenti anche solo per qualche settimana. Su questo ci si è interrogati molto, tecnicamente e persino filosoficamente. Ma la vera sorpresa, semmai, è quanto sistematicamente quegli errori vengano presi per buoni come niente fosse. Il McKinsey Global Survey documenta che quasi la metà delle organizzazioni intervistate ha già subito conseguenze negative da output AI inaccurati — e che la quota cresce anno su anno, parallelamente all’adozione.Il punto è che i modelli producono errori con la stessa fluidità, la stessa sicurezza e la stessa forma grammaticalmente corretta con cui producono verità, e tendenzialmente non si preoccupano di farci sapere quando non sono molto sicuri. Un paper pubblicato su arxiv nel febbraio 2025 — “Trust Me, I’m Wrong: High-Certainty Hallucinations in LLMs” — ha documentato sistematicamente questo fenomeno: i modelli sono in grado di allucinare con alta certezza, producendo output errati in modo coerente e riproducibile anche quando dispongono della conoscenza corretta. È una confidenza inversa al contenuto, un segnale di allarme che si maschera da segnale di affidabilità: in parte questa tendenza è già stata mitigata con il susseguirsi di aggiornamenti ai LLM, ma resta un dato più che interessante.Questo crea quello che si potrebbe chiamare il paradosso della fiducia mal riposta: più un utente è inesperto del dominio su cui interroga il modello, meno è in grado di riconoscere l’errore. E più l’errore è formulato con autorevolezza, meno incita alla verifica. I due meccanismi si rinforzano a vicenda, costruendo una trappola epistemica che nessun disclaimer in fondo alla pagina riesce davvero a smontare.Dalle aule dei tribunali alle stanze dei governiIl settore dove le conseguenze di questo meccanismo sono diventate più visibili, e documentate, è quello legale. Il database sulle allucinazioni nei procedimenti giudiziari, mantenuto dal ricercatore Damien Charlotin dell’HEC Paris, ha censito fino ad oggi oltre 1.350 casi in cui sistemi di intelligenza artificiale hanno prodotto citazioni giuridiche inesistenti finite in atti processuali. Solo nei tribunali federali e statali americani si contano centinaia di casi documentati, in costante crescita addirittura dal 2023.Tra queste situazioni è incluso un caso in cui il professionista stava usando uno strumento di ricerca legale certificato, progettato specificamente per ridurre questo tipo di rischio. Il problema, cioè, non si è fermato con l’arrivo di strumenti più specializzati.I tribunali stanno elaborando una giurisprudenza del tutto nuova, che distingue tra “uso consapevolmente ingannevole” dell’AI e “affidamento inconsapevole”, pur riconoscendo in entrambi i casi la responsabilità piena del professionista. In California, nel caso Noland v. Land of the Free, una corte d’appello ha imposto una sanzione di 10.000 dollari a un avvocato le cui memorie contenevano 21 citazioni su 23 con errori, alcune riferite a casi inesistenti, e ha pubblicato l’opinione esplicitamente come monito.Il caso più clamoroso in termini economici, però, viene dall’Australia. Nel luglio 2025, Deloitte Australia ha pubblicato per conto del Dipartimento federale per le Relazioni di Lavoro un rapporto da 440.000 dollari australiani su sistemi di welfare automatizzati. Il documento, una volta esaminato da ricercatori accademici, è risultato contenere citazioni accademiche inesistenti e una citazione inventata attribuita a una sentenza della Corte Federale. Il ricercatore Chris Rudge dell’Università di Sydney ha identificato le anomalie immediatamente: uno dei testi citati attribuiva alla professoressa di diritto costituzionale Lisa Burton Crawford un libro mai scritto su un argomento completamente estraneo alla sua attività. Deloitte ha dovuto rimborsare l’ultimo pagamento contrattuale.Ciò che colpisce di questo caso non è la quantità di denaro coinvolta, ma il profilo istituzionale: una delle quattro grandi società di consulenza al mondo, un committente governativo, un documento su un tema sensibile come i meccanismi di sanzione del welfare. Le allucinazioni non sono un problema dell’utente inesperto che sperimenta con un chatbot gratuito. Sono un problema sistemico che attraversa l’intera catena del valore professionale.Allucinazioni AI in azienda e nuovo lavoro umanoPer far fronte a questa fragilità strutturale, le aziende stanno reagendo in modo compatto e, tutto sommato, prevedibile. Il McKinsey Global Survey on AI del 2025 — condotto su 88% di organizzazioni che ora dichiarano uso regolare dell’AI — documenta che la quota di aziende che investe attivamente nella mitigazione dei rischi legati all’inaccuratezza degli output è quasi raddoppiata rispetto al 2022: si è passati da una media di due rischi gestiti a quattro. La supervisione umana degli output è diventata una voce di costo strutturale, non più una misura eccezionale.Sul fronte degli strumenti, il segnale più chiaro viene dal mercato stesso: secondo The Business Research Company, il settore degli strumenti per il rilevamento delle allucinazioni AI valeva 1,86 miliardi di dollari nel 2025 e cresce a un tasso annuo composto superiore al 33%. È una delle aree a più rapida espansione nell’intero ecosistema AI — il che dice qualcosa di preciso sulla natura del problema: abbastanza sistemico da giustificare un mercato dedicato, abbastanza persistente da farlo crescere a quella velocità.Il risultato è una figura professionale che fino a pochi anni fa non esisteva come categoria autonoma: il verificatore di output AI. Non un ingegnere che addestra modelli, non un manager che decide se adottare uno strumento. Una persona — spesso la stessa che usa il sistema — il cui compito è controllare ciò che il sistema ha prodotto. È il costo nascosto dell’adozione, quello che non compare nei pitch deck dei vendor e che i bilanci aziendali stanno imparando, lentamente, a contabilizzare.Un nuovo tipo di lavoro umanoLa tesi che vale la pena formulare con chiarezza, dunque, è questa: l’intelligenza artificiale, nella forma in cui viene attualmente implementata su scala enterprise, non sta sostituendo lavoro umano. Sta creando un nuovo tipo di lavoro umano, meno qualificato e meno soddisfacente del precedente, dedicato alla verifica sistematica delle macchine. Il guadagno di produttività, laddove esiste, va calcolato al netto di questo lavoro silenzioso, quasi mai incluso nei report che annunciano “risparmi” e “accelerazioni”.La cosa ulteriormente rilevante è che questo lavoro di verifica non è distribuito equamente. Chi ha le competenze per riconoscere un errore in un dominio specifico, come un giurista, un medico o un ricercatore accademico, può esercitare un controllo efficace. Chi non le ha, come il dipendente medio di un ufficio che usa AI per redigere comunicazioni o sintetizzare documenti, non ha gli strumenti per accorgersi del problema. Il sistema, in altri termini, è sicuro tanto quanto è esperto chi lo usa. Il che è esattamente il contrario di quello che si vorrebbe da un sistema progettato per abbassare la soglia di accesso alle competenze.La domanda che dobbiamo smettere di evitareC’è un punto che emerge con forza dai dati citati fin qui, e che la narrativa dominante sull’intelligenza artificiale tende a lasciare in secondo piano. Le allucinazioni non sono un bug in via di risoluzione: sono, secondo la letteratura matematica più recente, una caratteristica strutturale dei modelli linguistici nella loro architettura attuale. Si è già dimostrato formalmente che un sistema che genera testo attraverso la previsione probabilistica di sequenze produrrà, per necessità matematica, output non ancorati alla realtà in una certa percentuale di casi. Non è questione di quanti parametri ha il modello o di quanti dati ha visto in addestramento.Eppure l’industria tecnologica continua a presentare ogni nuova versione dei propri modelli con la promessa implicita di una maggiore accuratezza, di un avvicinamento alla perfezione. E i dati, almeno parzialmente, confermano progressi reali: Gemini 2.0 Flash di Google aveva registrato un tasso di allucinazione dello 0,7% nei benchmark di sintesi, un miglioramento sostanziale rispetto ai tassi del 15-20% di due anni prima, e questa percentuale è una di quelle su cui più spesso si enfatizzano i risultati dei nuovi modelli. La corsa alla performance, comunque, spesso non va nella stessa direzione della corsa all’affidabilità.La domanda che vale la pena formulare, allora, non è “quando i modelli smetteranno di allucinare?” La risposta a questa domanda, allo stato attuale delle conoscenze, è: probabilmente mai del tutto. La domanda più utile è un’altra: quanto siamo disposti a riorganizzare i nostri processi lavorativi, le nostre strutture organizzative e i nostri budget intorno alla necessità di verificare in modo sistematico ciò che le macchine producono? E, soprattutto: a questo costo, il modello economico dell’AI enterprise regge ancora?Il mercato ha già risposto in modo pragmatico: sì, regge, almeno per ora. Le aziende continuano ad adottare questi strumenti, i budget crescono, le integrazioni si moltiplicano. Ma lo fanno con una consapevolezza crescente che la promessa di autonomia e risparmio va sostanzialmente rinegoziata con la realtà di un sistema che richiede supervisione costante.C’è qualcosa di paradossalmente familiare in questo scenario. Abbiamo introdotto il personal computer promettendo di eliminare il lavoro manuale, e abbiamo creato intere categorie di lavoratori della conoscenza. Abbiamo introdotto internet promettendo accesso immediato all’informazione, e abbiamo generato un’industria della media literacy e del fact-checking. Ora introduciamo l’AI generativa promettendo di automatizzare la conoscenza, e stiamo costruendo un’industria della verifica degli output AI.Il progresso tecnologico raramente elimina il lavoro umano: lo sposta, lo trasforma, a volte lo nobilita, a volte lo riduce a mansioni di controllo. La questione non è se questo sia un bene o un male in senso assoluto. La questione è se lo stiamo scegliendo consapevolmente, con una valutazione lucida dei costi e dei benefici reali, oppure se stiamo semplicemente seguendo un’inerzia di adozione che si autoalimenta sulla base di aspettative ancora non del tutto verificate.Il costo di questa inerzia è quantificabile, ma va oltre il tema degli utili e dei ricavi aziendali. Parliamo della nostra buona abitudine a utilizzare gli strumenti, la competenza e il rigore come pilastri su cui poggiare equamente il nostro sviluppo professionale.

Allucinazioni AI in azienda, il costo nascosto della verifica umana - Agenda Digitale

Allucinazioni AI in azienda, il costo nascosto della verifica umana - Agenda Digitale

Other newsrooms on this story

Related reading

Le aziende hanno scoperto quanto costa davvero l'AI, e chiudono i rubinetti

AI nelle aziende: vantaggi e rischi per il giudizio umano - Agenda Digitale

Oltre il software: i veri costi degli agenti AI e l'impatto sulle aziende -…

Lavoro e IA agentica: la sfida del capitale umano tra competenze, fiducia e…

L'IA che mente: ecco come gli scienziati hanno classificato le 'allucinazioni'

Ricerca Future of Workers: criticità dell'AI agentica per il lavoro - Il…

Other newsrooms on this story

Related reading

Le aziende hanno scoperto quanto costa davvero l'AI, e chiudono i rubinetti

AI nelle aziende: vantaggi e rischi per il giudizio umano - Agenda Digitale

Oltre il software: i veri costi degli agenti AI e l'impatto sulle aziende -…

Lavoro e IA agentica: la sfida del capitale umano tra competenze, fiducia e…

L'IA che mente: ecco come gli scienziati hanno classificato le 'allucinazioni'

Ricerca Future of Workers: criticità dell'AI agentica per il lavoro - Il…