Imodelli di intelligenza artificiale generativa - come quelli alla base di Claude, ChatGpt e Gemini - vengono addestrati su enormi raccolte di testi pubblici provenienti principalmente da internet, inclusi articoli, blog e siti personali. Questo allenamento consente all’IA di comprendere e generare linguaggio in modo naturale, ma comporta anche dei rischi.

Poiché chiunque può condividere contenuti online che potrebbero finire nei dati di addestramento, esiste la possibilità che soggetti malintenzionati pubblichino testi appositamente manipolati per influenzare il comportamento futuro dei modelli.

Tale pratica, nota come data poisoning, che in italiano significa “avvelenamento dei dati”, può indurre un chatbot a riprodurre informazioni distorte o comportamenti indesiderati.

La porta nascosta nell’intelligenza artificiale

Il risultato può essere che il modello sviluppi una backdoor - una sorta di “porta nascosta” - che lo porta a eseguire un comportamento preciso quando riconosce uno stimolo specifico inserito nei testi avvelenati.