I robot più evoluti, basati su intelligenza artificiale generativa, rifiutano gli ordini apertamente violenti, ma cedono quando la stessa richiesta viene travestita da racconto o da dialogo per un film. È la conclusione di una serie di recenti ricerche che spostano l’attenzione dalla sicurezza dei chatbot IA a quella dei sistemi capaci di muoversi e agire nel mondo fisico. Il messaggio dei ricercatori studiosi è netto: le protezioni pensate per il “testo” non bastano quando l’intelligenza artificiale controlla un corpo meccanico.

Quando la finzione aggira i filtri

Il fenomeno ha un nome: si chiama creative framing e indica la riformulazione di una richiesta pericolosa dentro una cornice apparentemente innocua, come una sceneggiatura, un gioco di ruolo o una narrazione. Fazl Barez, ricercatore di sicurezza dell’IA presso University of Oxford, ha spiegato sulle pagine di The Conversation come i sistemi robotici respingano normalmente comandi diretti del tipo “colpisci quella persona”, salvo poi eseguire la stessa azione una volta inserita in un contesto di finzione. Il punto, secondo gli esperti, è che questi modelli non leggono il prompt (le istruzioni testuali) soltanto come un insieme di vincoli di sicurezza, ma anche come materiale semantico da interpretare. L’involucro narrativo, di conseguenza, modifica il giudizio del sistema sulla liceità dell’azione.