Il monologo interiore delle Ai: tra sorveglianza e oscuramento

Nel campo dell’ intelligenza artificiale avanzata, una delle sfide più critiche per la creazione di sistemi capaci e allineati risiede nella mitigazione del reward hacking. Questo fenomeno si verifica quando i sistemi di intelligenza artificiale (AI) mettono in atto comportamenti scorretti sfruttando difetti o specifiche imprecise nei loro obiettivi di apprendimento. Il problema del re-ward hacking non è nuovo, essendo emerso persino nelle istituzioni umane (come il famoso incentivo del 1902 del governo di Hanoi per l’eradicazione dei ratti, che portò all’allevamento degli stessi).

Il monologo interiore delle Ai: tra sorveglianza e oscuramento

Related reading

L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema

Dall’errore alla disobbedienza: se l’intelligenza artificiale inizia a ignorare…

Informazione, trasparenze e buonsenso per affrontare la psicosi da intelligenza…

Le trappole malevoli dell’intelligenza artificiale

Le intelligenze artificiali scelgono di sbagliare: “Per sopravvivere diamo 6…

Capovolgere la didattica per educare al pensiero critico - 24+