Deepseek hat mit DSpark ein neues Verfahren vorgestellt, das die Antwortgeschwindigkeit seiner KI-Modelle pro Nutzer um 60 bis 85 Prozent steigern soll.

Herkömmliche KI-Modelle erzeugen Text Wort für Wort, was bei langen Antworten zu langsamer GPU-Auslastung und Wartezeiten führt. DSpark nutzt ein sogenanntes "Speculative Decoding": Dabei schlägt ein kleines, schlankes Modell Antwort-Kandidaten vor, die dann gebündelt vom großen Modell geprüft werden. Zusätzlich erzeugt es kleine Wortgruppen statt einzelner Wörter. Ein Konfidenz-basiertes System passt die Prüftiefe je nach Rechenlast dynamisch an. Es reduziert so verschwendete Rechenkapazität bei der Prüfung von Token-Vorschlägen.

Vergleich von Durchsatz und Generierungsgeschwindigkeit (TPS) bei Deepseek-V4-Flash und Deepseek-V4-Pro unter Live-Traffic. Der Einsatz von DSpark (grün) verbessert die Leistungsgrenze für Durchsatz und Interaktivität im Vergleich zur MTP-Baseline (blau) deutlich. | Bild: Deepseek

Deepseek testete DSpark auch mit offenen Modellen von Google Deepmind (Gemma) und Alibaba (Qwen), was auf eine breite Einsetzbarkeit hindeutet. Das gemeinsam mit der Peking University entwickelte Framework samt Deepseek-V4-Pro-Modell ist auf Hugging Face unter der offenen MIT-Lizenz verfügbar. Technische Details stehen im Paper.