推理满血R1,仅需24GB!

GPU容器数据库

开源推理框架 KTransformers 支持了24GB推理DeepSeek-R1/V3。(24GB = 4090/3090的显存大小)

4090下,prompt预处理速度,可以达到285token/s, 生成速度达到14 token/s。

MoE架构相比于Dense模型本身需要大量的存储空间,计算资源会少一些,所以大佬们将GPU、CPU联合推理发挥到极致。

另外,推理的是671B-int4量化版本,血不太满~

主要的优化策略:

  1. 混合推理 :KTransformers 框架采用 CPU 和 GPU 混合推理技术。计算密集型操作被卸载到 GPU,而其他操作则由 CPU 处理。这种分工协作的方式能够充分利用硬件资源,提高效率。
  2. 专家选择策略 :框架使用了一种基于离线剖析结果的专家选择策略。在推理过程中,选择较少的专家参与计算,在不影响输出质量的前提下,有效地减少了内存占用。
  3. Intel AMX 优化 :框架中使用了 AMX 加速内核和缓存友好的内存布局。这些优化措施显著提升了性能,并减少了内存开销。
  4. 高效内存管理 :为了避免 NUMA 节点之间的数据传输成本,框架将关键矩阵复制到两个 NUMA 节点,从而加快预填充和解码过程。虽然这种方法增加了内存消耗,但显著提升了性能。

项目地址:https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1\_V3\_tutorial.md

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 NoSQL 的实践与探索
随着 NoSQL 的蓬勃发展越来越多的数据存储在了 NoSQL 系统中,并且 NoSQL 和 RDBMS 的界限越来越模糊,各种不同的专用 NoSQL 系统不停涌现,各具特色,形态不一。本次主要分享字节跳动内部和火山引擎 NoSQL 的实践,希望能够给大家一定的启发。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论