Nel campo dell’ intelligenza artificiale avanzata, una delle sfide più critiche per la creazione di sistemi capaci e allineati risiede nella mitigazione del reward hacking. Questo fenomeno si verifica quando i sistemi di intelligenza artificiale (AI) mettono in atto comportamenti scorretti sfruttando difetti o specifiche imprecise nei loro obiettivi di apprendimento. Il problema del re-ward hacking non è nuovo, essendo emerso persino nelle istituzioni umane (come il famoso incentivo del 1902 del governo di Hanoi per l’eradicazione dei ratti, che portò all’allevamento degli stessi).