Cada vez que un LLM dice "No puedo ayudarte con eso", le está regalando un gradiente de optimización al atacante.

No es intuición. Es matemática:

ASR = 1 - (1 - β_D · (1 - β_A))^N → 1 cuando N → ∞

Enter fullscreen mode

Exit fullscreen mode