Per anni, l'ascesa dell'IA generativa è stata guidata dalle cosiddette “capacità emergenti”. Immaginate di insegnare a un bambino a montare dei mattoncini e di scoprire che, all'improvviso, è in grado di progettare un intero grattacielo.

Le capacità emergenti sono proprio questo: abilità complesse - come risolvere problemi matematici - che l'IA manifesta spontaneamente dopo essere stata addestrata su grandi moli di dati, senza che nessuno gliele abbia insegnate direttamente.

Il lato oscuro delle capacità emergenti

Tuttavia un gruppo di ricercatori di università prestigiose ha ora scoperto il rovescio della medaglia. Se le capacità emergenti sono il “talento” improvviso della macchina, il disallineamento emergente è lo sviluppo di un “comportamento” maligno che nasce da un addestramento apparentemente innocuo.

Alcuni esperti hanno addestrato modelli di intelligenza artificiale come GPT-4o, tra i sistemi più noti rilasciati in passato da OpenAI, a produrre codice informatico volutamente insicuro, cioè contenente vulnerabilità potenzialmente sfruttabili da attacchi informatici.