OpenAI-Ingenieure haben offenbar Optimierungen entwickelt, die die Inferenzkosten – also die Kosten für den Betrieb bereits trainierter Modelle – um mehr als die Hälfte senken. Angeblich konnte OpenAI die Zahl der benötigten Nvidia-GPUs für nicht eingeloggte ChatGPT-Nutzer zeitweise auf „nur ein paar hundert“ reduzieren – eine auffällig niedrige Zahl.

Das berichtet The Information unter Berufung auf interne Quellen. Welche konkreten Techniken OpenAI einsetzt, ist allerdings unklar. Mögliche Bausteine der Kostenreduktion könnten Quantisierung (Reduktion der Zahlenpräzision von Modellgewichten) sein, Key-Value-Caching (Wiederverwendung früherer Berechnungen), Batching (parallele Verarbeitung mehrerer Anfragen) sowie Routing einfacher Aufgaben an weniger rechenintensive Modelle. Solche Verfahren sind in der Branche etabliert und können in Kombination erhebliche Einsparungen erzielen.

Aggressive Inferenzoptimierungen bergen allerdings Risiken. Quantisierung kann die Genauigkeit der Ergebnisse verringern, fehlerhaftes Modellrouting kann Anfragen fälschlich als „einfach“ einstufen und an zu kleine Modelle delegieren. Kontext-Komprimierung wiederum könnte sicherheitsrelevante Signale in langen Chatverläufen beschneiden.