Un brano musicale di sottofondo. Un podcast in riproduzione mentre si cucina. Persino video di YouTube lasciato aperto in una scheda del browser. Sono tutti scenari ordinari che, secondo una nuova ricerca di cybersicurezza, possono trasformarsi nel vettore di un attacco informatico estremamente sofisticato contro gli assistenti vocali basati su intelligenza artificiale. La tecnica, chiamata “AudioHijack”, è stata svelata in ogni dettaglio, qualche giorno fa, durante l’ultimo IEEE Symposium on Security and Privacy 2026. La scoperta si deve a un gruppo di ricercatori delle Zhejiang University, Nanyang Technological University di Singapore e National University of Singapore.

Una iniezione di audio malevolo

Nel gergo della cybersecurity, gli attacchi che manipolano un modello linguistico inoculando istruzioni nascoste si chiamano “prompt injection”. AudioHijack ne rappresenta la declinazione acustica, in cui il comando malevolo non viene scritto né pronunciato, ma codificato in un segnale audio “malvevolo” che l'orecchio umano percepisce (se lo percepisce) come rumore di fondo trascurabile, mentre i large audio-language models (LALM) lo interpretano come istruzione legittima. Questi ultimi non sono altro che sistemi avanzati di IA multimodale progettati per comprendere, elaborare e generare non solo testo, ma anche contenuti audio.