L’adozione sempre più diffusa dei Large Language Models sta ampliando in modo significativo la superficie di attacco delle organizzazioni. Secondo i dati del MIT AI Risk Repository, che censisce oltre 1.700 rischi associati agli LLM, il 62% delle minacce emerge dopo il rilascio dei modelli, quando questi vengono utilizzati in contesti reali e interagiscono con utenti, dati esterni e processi aziendali. Solo il 13% dei rischi, invece, riguarda le fasi precedenti al deployment.A destare particolare attenzione è la categoria definita “Human x Intentional x Post-deployment”, che rappresenta il 18% dei rischi catalogati e comprende gran parte degli attacchi informatici che i professionisti della sicurezza si trovano oggi a fronteggiare.Il paper Cefriel mette in relazione MIT AI Risk e OWASPDa queste evidenze nasce l’Instant Paper “Fiducia e fragilità dei Large Language Models”, realizzato da Andrea Guerini, Du Lin e Federico Saccani di Cefriel. Lo studio affronta il rapporto tra fiducia e vulnerabilità nei sistemi di intelligenza artificiale generativa, proponendo una lettura congiunta di due framework di riferimento: la tassonomia del MIT AI Risk Repository e la OWASP Top 10 for LLM Applications 2025, considerata uno degli standard più aggiornati per l’analisi delle vulnerabilità dei sistemi linguistici generativi.Secondo Andrea Guerini, Business Development Manager di Cefriel, l’incrocio tra i due modelli consente di evidenziare come il problema centrale della cybersecurity nell’AI moderna sia rappresentato dall’eccesso di fiducia, sia verso le persone sia verso i sistemi di intelligenza artificiale. Per questo il paper individua sette combinazioni di rischio che aiutano le organizzazioni a orientarsi in uno scenario sempre più complesso.Le sette combinazioni per comprendere le minacceL’analisi proposta da Cefriel utilizza tre dimensioni chiave – Entity, Intent e Timing – per classificare i rischi. L’obiettivo è comprendere chi genera il problema, con quale intenzione e in quale fase del ciclo di vita del modello si manifesta.Questo approccio permette di superare una visione limitata alla semplice identificazione delle vulnerabilità e di comprendere meglio le dinamiche che portano agli incidenti. In particolare, la metodologia aiuta a distinguere se la causa sia attribuibile a un essere umano, al sistema AI stesso oppure a fattori esterni, individuando di conseguenza i punti in cui intervenire per ridurre l’esposizione ai rischi.Quando l’AI diventa un elemento di fragilitàUno degli aspetti più rilevanti evidenziati dal paper riguarda il cambiamento del paradigma informatico tradizionale. L’inserimento di modelli generativi nei processi aziendali rende infatti il perimetro digitale meno deterministico e più difficile da controllare, creando nuove opportunità per gli attaccanti.L’eccesso di fiducia può manifestarsi sia negli utenti sia nei sistemi. Da un lato, sviluppatori e operatori possono attribuire ai modelli capacità superiori a quelle reali, assumendo che siano in grado di garantire autonomamente sicurezza e correttezza. Dall’altro, il sistema stesso viene spesso trattato come una componente affidabile e deterministica, mentre la sua natura statistica lo rende vulnerabile a manipolazioni e comportamenti inattesi.Come sottolinea Du Lin, Cybersecurity Engineer di Cefriel, una delle principali criticità degli LLM è l’incapacità di distinguere in modo univoco tra dati e istruzioni. La confusione tra input informativo e input direttivo rappresenta una caratteristica strutturale che differenzia la sicurezza dei modelli linguistici da quella del software tradizionale.Dallo Zero Trust allo Zero-Trust AIPer affrontare questo scenario, Cefriel richiama il principio dello Zero Trust, sintetizzato nel motto “Never trust, always verify”. Nato nell’ambito della cybersecurity tradizionale, il modello si fonda sull’idea che nessun utente, dispositivo o processo possa essere considerato affidabile a priori.Secondo Federico Saccani, Cybersecurity Engineer di Cefriel, attribuire ai sistemi generativi il ruolo di “oracoli” affidabili significa confondere la fluidità del linguaggio prodotto con la correttezza delle informazioni. Un errore che può derivare sia da scelte progettuali sia da bias cognitivi.Da qui la proposta del framework Zero-Trust AI (ØT-AI), sviluppato dal centro di innovazione digitale per adattare i principi dello Zero Trust al contesto dell’intelligenza artificiale generativa.