1180 tok/s 的地表極速是什麼概念?在 256 tokens 的輸出下,運算只要 0.22 秒就瞬間結束,這表示 DiffusionGemma 26B 在 NVIDIA GH200 上跑 vLLM 的速度,整整比 M2 Max 快了 80 倍!
延續系列第一篇在 M2 Max 96GB (MLX) 篇 中探討地端 Agent「無限 Token 自由」的實驗,當時 Standard 4-bit 雖然擠出了 31.6 tok/s 的不錯峰值,但面對長 Context(上下文)與多用戶併發請求時,Mac 的排隊機制與記憶體頻寬依然顯得力不從心。
為了追求 Production等級部署,我們將戰場移到魔王級的硬體—— NVIDIA GH200 (Grace Hopper),當強大的 Diffusion 架構遇上 vLLM 優化,不僅 32,653 tokens 的 Context 直接逼近極限打滿,併發吞吐量也是狂飆猛飆,雖然上面還是舊的HBM3,但是效果體感上還是滿讓人滿意的。
測試環境:vLLM + GH200 480GB
項目








