火山引擎 x NVIDIA H100，全面提升 AI 算力 - 文章 - 开发者社区

近日，字节跳动旗下的企业级技术服务平台火山引擎宣布将在弹性计算服务和机器学习平台上采用NVIDIA最新推出的基于 Hopper 架构的 H100 Tensor Core GPU，助力火山引擎上的广大企业级客户大幅提升人工智能算力性能。

火山引擎和NVIDIA在过去几年里已开展了深入合作，并在自然语言处理、深度推荐系统、计算视觉等领域卓有成效。火山引擎团队和NVIDIA团队一致表示：非常期待双方的合作能继续往纵深发展，共同推进新一代加速计算浪潮。

在过去几年中，AI模型规模不断增大，对于算力的需求也以指数级别快速提升。火山引擎的弹性计算产品通过不断迭代来满足云上各行各业的客户的需求，从基于NVIDIA A30 Tensor Core GPU的推理加速实例 ini2，到基于NVIDIA A100 Tensor Core GPU 面向多机多卡训练场景的超级计算 hpcpni2 实例，当前火山引擎提供的产品覆盖人工智能的各种负载，很好的服务了字节搜索、推荐等内部客户，以及各种外部客户。

火山引擎采用的新一代基于NVIDIA H100 Tensor Core GPU弹性计算HPC实例将在 GPU的内存带宽、GPU与CPU的通信速度以及全精度范围内AI计算性能等方面，都会有全面的大幅提升，并且面向AI语言模型、生物制药、基因工程、自动驾驶等诸多领域提供更具有性价比的实例产品。

此外，火山引擎在弹性计算实例之上，构建了一站式企业级云原生机器学习平台，为机器学习应用开发者提供高效、稳定的数据处理及加速、模型训练、模型推理等服务，极致提升GPU资源利用率和开发者体验。

火山引擎机器学习平台面向专业开发者，将经过字节跳动亿级DAU产品打磨的大规模训练系统和推理系统对外开放。平台基于超大算力池、资源池化、针对训练优化的资源调度引擎，能够大幅提升资源利用率，实现GPU碎片率0%。业务上云或迁移过程中，无需修改镜像、代码和数据。全自研BytePS分布式训练框架，性能超主流训练框架Horovod/DDP 高达84%，全自研veGiantModel大模型训练框架，相比主流模型并行训练框架Megatron、DeepSpeed 提升30%以上。

火山引擎的新一代弹性计算HPC实例和机器学习平台，将为企业客户提供更好的AI算力性能，不断提升客户体验。未来，火山引擎将继续与合作伙伴共同开发新产品，为所有云用户提供更多包容性的 AI 计算能力。

了解更多产品详情： https://www.volcengine.com/product/gpu