Imodelli di intelligenza artificiale che mentono e imbrogliano stanno aumentando, con un’impennata di comportamenti ingannevoli negli ultimi sei mesi, secondo uno studio recente.

La ricerca, finanziata dall’AI Security Institute (AISI), organismo britannico, mostra che chatbot e agenti AI ignorano istruzioni, aggirano sistemi di sicurezza e ingannano sia esseri umani sia altre AI. Lo studio, condiviso con il Guardian, ha identificato quasi 700 casi reali di comportamenti ingannevoli e segnala un aumento di cinque volte tra ottobre e marzo. Alcuni modelli hanno persino cancellato email e altri file senza autorizzazione.

Analizzare questi comportamenti “in natura”, cioè nel mondo reale e non in laboratorio, ha rilanciato le richieste di un monitoraggio internazionale dei modelli AI sempre più sofisticati.

Lo studio, condotto dal Centre for Long-Term Resilience (CLTR), ha raccolto migliaia di esempi reali di interazioni tra utenti e agenti AI sviluppati da aziende come Google, OpenAI, X e Anthropic, pubblicate sulla piattaforma X. La ricerca ha trovato centinaia di episodi di inganno.

In passato, gli studi sull’AI si erano concentrati soprattutto su comportamenti in condizioni controllate. All’inizio di questo mese, la società di ricerca Irregular ha scoperto che gli agenti potevano aggirare sistemi di sicurezza o usare tattiche da attacco informatico per raggiungere i propri obiettivi, anche senza istruzioni.