Misdirection Proxy: cómo llevar el ASR de ataques a LLMs del 20% al mínimo

Le dije a un atacante de IA que ganó. Perdió. Un proxy defensivo que no bloquea prompts...

giovedì 25 giugno 2026 New tab

356 words~2 min read

Le dije a un atacante de IA que ganó. Perdió.

Un proxy defensivo que no bloquea prompts maliciosos. Los reemplaza con respuestas que parecen exitosas pero son inoperativas. ASR de 20% a 0-2%.

El problema

Los LLMs actuales defienden con refusals: "No puedo ayudarte con eso". Predecible. Falsificable.

Cada refusal le dice al atacante exactamente qué ajustar. Con 20-50 queries, cualquier jailbreak automatizado (PAIR, GPTFuzz) converge a ASR = 1.0. Matemáticamente demostrado.

Misdirection Proxy: cómo llevar el ASR de ataques a LLMs del 20% al mínimo

Misdirection Proxy: cómo llevar el ASR de ataques a LLMs del 20% al mínimo

Other newsrooms on this story

Related reading

Le dije a un atacante de IA que ganó. Perdió.

Building a sub-millisecond LLM security proxy in Go — lessons from 62…

NeuroImprint Detector: Audita adapters PEFT para detectar backdoors de…

Defender flujos de agentes contra el OWASP LLM Top 10

Así funciona AudioHijack, capaz de tomar el control de tu IA escondido en un…

Operator: cuando responder no basta

Other newsrooms on this story

Related reading

Le dije a un atacante de IA que ganó. Perdió.

Building a sub-millisecond LLM security proxy in Go — lessons from 62…

NeuroImprint Detector: Audita adapters PEFT para detectar backdoors de…

Defender flujos de agentes contra el OWASP LLM Top 10

Así funciona AudioHijack, capaz de tomar el control de tu IA escondido en un…

Operator: cuando responder no basta