Le dije a un atacante de IA que ganó. Perdió.

Un proxy defensivo que no bloquea prompts maliciosos. Los reemplaza con respuestas que parecen exitosas pero son inoperativas. ASR de 20% a 0-2%.

El problema

Los LLMs actuales defienden con refusals: "No puedo ayudarte con eso". Predecible. Falsificable.

Cada refusal le dice al atacante exactamente qué ajustar. Con 20-50 queries, cualquier jailbreak automatizado (PAIR, GPTFuzz) converge a ASR = 1.0. Matemáticamente demostrado.