DeepSeek开源周,第二弹, DeepEP来袭~

大模型机器学习数据库

众所周知,DeepSeek R1满血版因为参数量太大,所以很多的企业在亏本提供API。

picture.image

而高效部署DeepSeek R1的方式,在论文里边已经些了,专家并行。但是现在目前的开源框架并不支持,导致很多厂商再用暴力部署,亏本赚吆喝。 DeepSeek今天把这个杀手锏开源了!饭喂嘴里了,不许再说“布R1亏xx了”~

项目地址:https://github.com/deepseek-ai/DeepEP

一个针对 MoE 和专家并行通信的库。支持低精度操作,包括 FP8,在训练和推理阶段都能发挥出色性能。

DeepEP 提供了一套优化的内核,用于不对称域带宽转发,例如从 NVLink 域到 RDMA 域的数据转发。不仅提供了高吞吐量,还支持 SM(Streaming Multiprocessors)数量控制

NVLink 和 RDMA 转发 内核 对比 纯 RDMA 内核在H800上的表现。

picture.image

DeepEP 已经在 InfiniBand 网络上进行了全面测试,理论上也兼容 RDMA over Converged Ethernet (RoCE)。

网络配置方面的优化和建议:

DeepEP 建议将不同类型的工作负载分配到不同的虚拟车道中。例如:

  • 使用常规内核(normal kernels)的工作负载;
  • 使用低延迟内核(low-latency kernels)的工作负载;
  • 其他类型的工作负载。

DeepEP 的低延迟内核(low-latency kernels)支持自适应路由。常规内核(normal kernels)目前不支持自适应路由。

在生产环境中未观察到显著的网络拥塞问题,因此默认禁用了拥塞控制。

项目地址:https://github.com/deepseek-ai/DeepEP

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论