你知道吗?2026 年中期,在生产环境部署 671B 参数的 DeepSeek-R1 仍然需要 8 张 H100,硬件成本约 20 万美元。但清华大学 MADSys 实验室的开源项目早在 2024 年就能在单台工作站上跑 236B 参数 MoE 模型,2025 年 2 月甚至在普通硬件上实现了 671B DeepSeek-R1 286 tokens/s 的 Prefill 速度。这个项目就是 kvcache-ai/ktransformers,截至 2026-06-12 已有 17,264 Stars、1,313 Forks、Apache-2.0 协议。2026 年的 AI 基础设施叙事被 NVIDIA 机架级系统和越来越贵的显存账单主导。KTransformers 是一条被严重低估的反击路线:它让你在消费级 GPU 和 CPU 内存的混合硬件上跑前沿 MoE 模型,而且提供了五个几乎没人讨论的生产级技巧。
背景:2026 年为什么 CPU/GPU 混合推理至关重要
2026 年,混合专家(Mixture-of-Experts,MoE)已经成为前沿开源模型的默认架构。DeepSeek-V3/R1、Qwen3-235B-A22B、Kimi-K2.5、GLM-4.7 以及最新的 DeepSeek-V4-Flash 全是 MoE。直觉上 MoE 推理仍然需要 H100 级 GPU,因为每个 token 只激活少量专家,活跃参数量虽小,但总参数量巨大(DeepSeek-R1 671B,Kimi-K2.5 上万亿)。CPU-GPU 混合方案把"冷"专家放在 CPU 内存,把"热"专家留在 GPU。KTransformers 把这个想法变成一个生产级框架,截至 v0.6.2(2026-05-03 发布)已支持 9 种不同的 MoE 模型。2026 年 ACM SIGOPS 论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》正式发表了这一架构。
隐藏用法 #1:基于频率感知的 CPU-GPU 专家调度
大多数人的做法: 把 GPU 当黑盒,试图把整个 MoE 模型塞进显存。模型太大时,要么买更多 GPU,要么换更小的模型。













