DiffusionGemma 26B 挑戰 GH200 效能極限

1180 tok/s 的地表極速是什麼概念？在 256 tokens 的輸出下，運算只要 0.22 秒就瞬間結束，這表示 DiffusionGemma 26B 在 NVIDIA GH200 上跑 vLLM 的速度，整整比 M2 Max 快了 80 倍！

延續系列第一篇在 M2 Max 96GB (MLX) 篇中探討地端 Agent「無限 Token 自由」的實驗，當時 Standard 4-bit 雖然擠出了 31.6 tok/s 的不錯峰值，但面對長 Context（上下文）與多用戶併發請求時，Mac 的排隊機制與記憶體頻寬依然顯得力不從心。

為了追求 Production等級部署，我們將戰場移到魔王級的硬體—— NVIDIA GH200 (Grace Hopper)，當強大的 Diffusion 架構遇上 vLLM 優化，不僅 32,653 tokens 的 Context 直接逼近極限打滿，併發吞吐量也是狂飆猛飆，雖然上面還是舊的HBM3，但是效果體感上還是滿讓人滿意的。

測試環境：vLLM + GH200 480GB

項目

測試環境：vLLM + GH200 480GB

項目

DiffusionGemma 26B 挑戰 GH200 效能極限

DiffusionGemma 26B 挑戰 GH200 效能極限

Other newsrooms on this story

Related reading

DiffusionGemma 26B 登陸 M2 Max：MLX 吞吐量實測與 Context 極限挑戰

GB10 實測 DiffusionGemma 26B 挑戰 32K 極限

DiffusionGemma: How Google's New Open LLM Hits 1,000 Tokens/sec and Changes…

Gemma-4 31B + vLLM on RTX 6000 PRO : A Real-Load Benchmark

Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free - Decrypt

Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text…

Other newsrooms on this story

Related reading

DiffusionGemma 26B 登陸 M2 Max：MLX 吞吐量實測與 Context 極限挑戰

GB10 實測 DiffusionGemma 26B 挑戰 32K 極限

DiffusionGemma: How Google's New Open LLM Hits 1,000 Tokens/sec and Changes…

Gemma-4 31B + vLLM on RTX 6000 PRO : A Real-Load Benchmark

Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free - Decrypt

Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text…