本文主要介绍了思科基于以太网的 AI 集群架构,采用 Silicon One 芯片和 SONiC 操作系统,构建包含 32 个 NVIDIA DGX H100 节点(共 256 块 GPU)的 AI 集群,强调以太网在性能、可扩展性和多租户安全方面的优势,通过 CLOS 架构实现无阻塞架构,结合优先流控制(PFC)和显式拥塞通知(ECN)确保无损传输,并利用 Grafana 等工具进行运维监控,总结了 AI 基础设施在计算、网络和存储方面的关键需求及解决方案。
- 思科 AI 战略与业务目标
AI 的重要性:AI 正在改变世界,渗透各领域,为思科带来新市场机会,提升产品(如 Webex 音视频优化)和服务(如缩短 MTTR 的聊天机器人)能力。
核心业务目标:
部署含256 块 NVIDIA H100 GPU的 AI 集群,验证思科技术栈(Silicon One 芯片 + SONiC 系统)。
与 Common Hardware Group 合作制定基于以太网的大规模 AI 集群蓝图。 2. 选择以太网的原因与市场趋势
思科 AI 集群为何选择以太网而非 InfiniBand?
性能与扩展性:以太网支持更高效的规模扩展(如 512-wide radix 架构),适应多 GPU 并行训练。
多租户安全:确保客户训练数据主权和保护。
运维兼容性:支持多厂商硬件、多种 GPU 类型,人才生态更成熟。
市场数据:2024 年以太网交换机收入占数据中心 AI 网络市场的74%,远超 InfiniBand 的 15%。 3. SONiC 技术架构与功能
定义:开源网络操作系统(NOS),支持白盒硬件,通过 SAI API 抽象硬件,实现软件组件民主化。
功能栈:
社区驱动:SAI API 和 SONiC OS 由社区开发,平台 SDK 由厂商维护。
关键特性:MACsec 安全、热重启(Warm Boot)、IP Fabric(BGP)、EVPN VxLAN 覆盖网络。
工具链:支持 gRPC telemetry、SNMP、ZTP 自动化部署。 4. AI集群硬件与网络设备
计算节点:
配置:32 个 NVIDIA DGX H100 节点,每节点含8 块 H100 GPU、2TB 内存、32 PetaFLOPS FP8 性能,功耗 10.2kW / 节点。
网络:8x ConnectX-7 VPI 接口,支持 400Gbps 以太网 / InfiniBand,双链路冗余。
存储节点:
配置:4 个 NetApp A900 节点(HA 对),128 核 CPU、2TB 内存,提供131TB 可用存储空间,支持 8x100Gbps 以太网接口(RoCE)。
网络设备:
| 设备型号 | ASIC | 端口 | 吞吐量 | 用途 | | --- | --- | --- | --- | --- | | Cisco 8101-32FH-O | Silicon One | 32xQSFP-DD(400Gbps) | 12.8Tbps | 计算网络(叶 / 脊交换机) | | Cisco 8102-64H-O | Silicon One | 64xQSFP28(100Gbps) | 6.4Tbps | 带内管理网络 | | Cisco 93108TC-FX3H | Cloud Scale | 48x10GBASE-T | 1.8Tbps | 带外管理网络 |
- 网络架构设计
分区设计:
计算网络:采用 CLOS 架构,8 叶 + 8 脊交换机,400Gbps 无阻塞链路,iBGP 路由反射器,支持 ECMP 负载均衡。
存储网络:100Gbps 链路,连接 NetApp 存储与 DGX 节点,未来计划部署 VxLAN 覆盖网络。
带内管理网络:5 个 UCS 管理节点,通过 SLURM 调度作业,使用 100Gbps 交换机。
无损传输机制:
PFC(802.1Qbb):按优先级实现流量控制,确保关键 AI 流量无丢包。
ECN(显式拥塞通知):通过 IP 头标记拥塞,触发端到端速率调整,避免缓冲区溢出。 2. 实施与运维
部署流程:
硬件搭建:利用现有机柜,分布式部署 32 个 DGX 节点(10.2kW / 节点),优化供电与散热。
软件配置:通过 SONiC CLI 和 config_db JSON 文件配置 BGP、端口聚合(PortChannel),自动化脚本生成配置。
运维工具:
监控:Grafana 仪表盘实时监控 CPU / 内存利用率、接口流量。
备份:Bitbucket 存储 SONiC 配置备份,支持版本管理。
文档:基于 Zabbix 的运行手册(Runbooks),涵盖拓扑、故障排除和升级流程。 3. 经验总结与挑战
关键挑战:
低熵流量导致负载均衡低效,长尾延迟影响作业完成时间(JCT)。
大规模集群中链路故障处理与拥塞管理。
解决方案:
采用分布式调度架构(DSF),通过智能NIC 实现流量预调度,减少拥塞。
CLOS 无阻塞架构结合硬件级负载均衡(如 WECMP),避免哈希偏斜。
未来方向:验证 “分布式调度架构”,提升多作业并发性能,深化 AI 与网络协同优化。