OpenAI halbiert offenbar Inferenzkosten durch interne Optimierungen

OpenAI-Ingenieure haben offenbar Optimierungen entwickelt, die die Inferenzkosten – also die Kosten für den Betrieb bereits trainierter Modelle – um mehr als die Hälfte senken. Angeblich konnte OpenAI die Zahl der benötigten Nvidia-GPUs für nicht eingeloggte ChatGPT-Nutzer zeitweise auf „nur ein paar hundert“ reduzieren – eine auffällig niedrige Zahl.

Das berichtet The Information unter Berufung auf interne Quellen. Welche konkreten Techniken OpenAI einsetzt, ist allerdings unklar. Mögliche Bausteine der Kostenreduktion könnten Quantisierung (Reduktion der Zahlenpräzision von Modellgewichten) sein, Key-Value-Caching (Wiederverwendung früherer Berechnungen), Batching (parallele Verarbeitung mehrerer Anfragen) sowie Routing einfacher Aufgaben an weniger rechenintensive Modelle. Solche Verfahren sind in der Branche etabliert und können in Kombination erhebliche Einsparungen erzielen.

Aggressive Inferenzoptimierungen bergen allerdings Risiken. Quantisierung kann die Genauigkeit der Ergebnisse verringern, fehlerhaftes Modellrouting kann Anfragen fälschlich als „einfach“ einstufen und an zu kleine Modelle delegieren. Kontext-Komprimierung wiederum könnte sicherheitsrelevante Signale in langen Chatverläufen beschneiden.

OpenAI halbiert offenbar Inferenzkosten durch interne Optimierungen

OpenAI halbiert offenbar Inferenzkosten durch interne Optimierungen

Other newsrooms on this story

Related reading

OpenAI reportedly cut response costs for guest ChatGPT users by more than half

OpenAI cuts inference costs in half with new optimization technique

OpenAI: Kosten von 50 Milliarden Dollar für Rechenleistung - WELT

OpenAI: KI-Entwickler bereitet sich vor Börsengang auf Preiskampf vor

KI-Preiskampf: OpenAI soll ChatGPT-Preise drastisch senken wollen – Anthropic…

KI bei Amazon, Meta, Uber und Co.: US-Konzerne rationieren Einsatz von…

Other newsrooms on this story

Related reading

OpenAI reportedly cut response costs for guest ChatGPT users by more than half

OpenAI cuts inference costs in half with new optimization technique

OpenAI: Kosten von 50 Milliarden Dollar für Rechenleistung - WELT

OpenAI: KI-Entwickler bereitet sich vor Börsengang auf Preiskampf vor

KI-Preiskampf: OpenAI soll ChatGPT-Preise drastisch senken wollen – Anthropic…

KI bei Amazon, Meta, Uber und Co.: US-Konzerne rationieren Einsatz von…