Le dije a un atacante de IA que ganó. Perdió.
Un proxy defensivo que no bloquea prompts maliciosos. Los reemplaza con respuestas que parecen exitosas pero son inoperativas. ASR de 20% a 0-2%.
El problema
Los LLMs actuales defienden con refusals: "No puedo ayudarte con eso". Predecible. Falsificable.
Cada refusal le dice al atacante exactamente qué ajustar. Con 20-50 queries, cualquier jailbreak automatizado (PAIR, GPTFuzz) converge a ASR = 1.0. Matemáticamente demostrado.










