开源推理框架 KTransformers 支持了24GB推理DeepSeek-R1/V3。(24GB = 4090/3090的显存大小)
4090下,prompt预处理速度,可以达到285token/s, 生成速度达到14 token/s。
MoE架构相比于Dense模型本身需要大量的存储空间,计算资源会少一些,所以大佬们将GPU、CPU联合推理发挥到极致。
另外,推理的是671B-int4量化版本,血不太满~
主要的优化策略:
- 混合推理 :KTransformers 框架采用 CPU 和 GPU 混合推理技术。计算密集型操作被卸载到 GPU,而其他操作则由 CPU 处理。这种分工协作的方式能够充分利用硬件资源,提高效率。
- 专家选择策略 :框架使用了一种基于离线剖析结果的专家选择策略。在推理过程中,选择较少的专家参与计算,在不影响输出质量的前提下,有效地减少了内存占用。
- Intel AMX 优化 :框架中使用了 AMX 加速内核和缓存友好的内存布局。这些优化措施显著提升了性能,并减少了内存开销。
- 高效内存管理 :为了避免 NUMA 节点之间的数据传输成本,框架将关键矩阵复制到两个 NUMA 节点,从而加快预填充和解码过程。虽然这种方法增加了内存消耗,但显著提升了性能。
项目地址:https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1\_V3\_tutorial.md