Un robot con l’IA può essere manipolato facilmente, anche per fare cose pericolose

I robot più evoluti, basati su intelligenza artificiale generativa, rifiutano gli ordini apertamente violenti, ma cedono quando la stessa richiesta viene travestita da racconto o da dialogo per un film. È la conclusione di una serie di recenti ricerche che spostano l’attenzione dalla sicurezza dei chatbot IA a quella dei sistemi capaci di muoversi e agire nel mondo fisico. Il messaggio dei ricercatori studiosi è netto: le protezioni pensate per il “testo” non bastano quando l’intelligenza artificiale controlla un corpo meccanico.

Quando la finzione aggira i filtri

Il fenomeno ha un nome: si chiama creative framing e indica la riformulazione di una richiesta pericolosa dentro una cornice apparentemente innocua, come una sceneggiatura, un gioco di ruolo o una narrazione. Fazl Barez, ricercatore di sicurezza dell’IA presso University of Oxford, ha spiegato sulle pagine di The Conversation come i sistemi robotici respingano normalmente comandi diretti del tipo “colpisci quella persona”, salvo poi eseguire la stessa azione una volta inserita in un contesto di finzione. Il punto, secondo gli esperti, è che questi modelli non leggono il prompt (le istruzioni testuali) soltanto come un insieme di vincoli di sicurezza, ma anche come materiale semantico da interpretare. L’involucro narrativo, di conseguenza, modifica il giudizio del sistema sulla liceità dell’azione.

Quando la finzione aggira i filtri

Un robot con l’IA può essere manipolato facilmente, anche per fare cose pericolose

Other newsrooms on this story

Un robot con l’IA può essere manipolato facilmente, anche per fare cose pericolose

Other newsrooms on this story

Related reading

L’algoritmo del terrore: così l’IA aiuta a pianificare attentati e sparatorie

AI fuori controllo: boom di chatbot che mentono, aggirano le regole e…

Dall’errore alla disobbedienza: se l’intelligenza artificiale inizia a ignorare…

Il nuovo trucco per fregare l'AI? Non serve un hacker, basta trattarla come se…

L'intelligenza artificiale ingannata dalle tecniche di persuasione sociale

Quando l’IA parla con gli elettori può cambiare le loro scelte

Related reading

L’algoritmo del terrore: così l’IA aiuta a pianificare attentati e sparatorie

AI fuori controllo: boom di chatbot che mentono, aggirano le regole e…

Dall’errore alla disobbedienza: se l’intelligenza artificiale inizia a ignorare…

Il nuovo trucco per fregare l'AI? Non serve un hacker, basta trattarla come se…

L'intelligenza artificiale ingannata dalle tecniche di persuasione sociale

Quando l’IA parla con gli elettori può cambiare le loro scelte