KTransformers的5个隐藏用法，17K Star的MoE推理框架背后没写在README里的能力

你知道吗？2026 年中期，在生产环境部署 671B 参数的 DeepSeek-R1 仍然需要 8 张 H100，硬件成本约 20 万美元。但清华大学 MADSys 实验室的开源项目早在 2024 年就能在单台工作站上跑 236B 参数 MoE 模型，2025 年 2 月甚至在普通硬件上实现了 671B DeepSeek-R1 286 tokens/s 的 Prefill 速度。这个项目就是 kvcache-ai/ktransformers，截至 2026-06-12 已有 17,264 Stars、1,313 Forks、Apache-2.0 协议。2026 年的 AI 基础设施叙事被 NVIDIA 机架级系统和越来越贵的显存账单主导。KTransformers 是一条被严重低估的反击路线：它让你在消费级 GPU 和 CPU 内存的混合硬件上跑前沿 MoE 模型，而且提供了五个几乎没人讨论的生产级技巧。

背景：2026 年为什么 CPU/GPU 混合推理至关重要

2026 年，混合专家（Mixture-of-Experts，MoE）已经成为前沿开源模型的默认架构。DeepSeek-V3/R1、Qwen3-235B-A22B、Kimi-K2.5、GLM-4.7 以及最新的 DeepSeek-V4-Flash 全是 MoE。直觉上 MoE 推理仍然需要 H100 级 GPU，因为每个 token 只激活少量专家，活跃参数量虽小，但总参数量巨大（DeepSeek-R1 671B，Kimi-K2.5 上万亿）。CPU-GPU 混合方案把"冷"专家放在 CPU 内存，把"热"专家留在 GPU。KTransformers 把这个想法变成一个生产级框架，截至 v0.6.2（2026-05-03 发布）已支持 9 种不同的 MoE 模型。2026 年 ACM SIGOPS 论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》正式发表了这一架构。

隐藏用法 #1：基于频率感知的 CPU-GPU 专家调度

大多数人的做法：把 GPU 当黑盒，试图把整个 MoE 模型塞进显存。模型太大时，要么买更多 GPU，要么换更小的模型。

背景：2026 年为什么 CPU/GPU 混合推理至关重要

隐藏用法 #1：基于频率感知的 CPU-GPU 专家调度

大多数人的做法：把 GPU 当黑盒，试图把整个 MoE 模型塞进显存。模型太大时，要么买更多 GPU，要么换更小的模型。

KTransformers的5个隐藏用法，17K Star的MoE推理框架背后没写在README里的能力

KTransformers的5个隐藏用法，17K Star的MoE推理框架背后没写在README里的能力

Other newsrooms on this story

Related reading

KTransformers: 5 Hidden Uses of the 17K-Star MoE Inference Stack from Tsinghua…

Transformers 中的涌现类比推理

Hybrid Mamba-Transformer MoEs Hide Their Stalls in Places Dashboards Do Not Look

2026年中盘点：国内外十大AI大模型全能横评，谁才是真正的“六边形战士“？

DeepSeek-V3: The 671B MoE Model You Can Run Locally in 2026

Kimi K2.5 runs on RTX 3060 with 768GB Intel Optane memory at 4 tokens per second

Other newsrooms on this story

Related reading

KTransformers: 5 Hidden Uses of the 17K-Star MoE Inference Stack from Tsinghua…

Transformers 中的涌现类比推理

Hybrid Mamba-Transformer MoEs Hide Their Stalls in Places Dashboards Do Not Look

2026年中盘点：国内外十大AI大模型全能横评，谁才是真正的“六边形战士“？

DeepSeek-V3: The 671B MoE Model You Can Run Locally in 2026

Kimi K2.5 runs on RTX 3060 with 768GB Intel Optane memory at 4 tokens per second