以下内容来自于《The Next Platform》的蒂莫西・普里克特・摩根(Timothy Prickett Morgan)和AMD 技术总监杰伊・梅茨(Jay Metz)的对谈,进行了压缩改编
一、联盟概况与核心目标
超以太网联盟(Ultra Ethernet Consortium, UEC)由 AMD、博通、思科、微软、Meta、英特尔、HPE 等 10 家创始公司于近年成立,旨在打造基于以太网的 AI 与高性能计算(HPC)开放生态。随着 ChatGPT-3 等生成式 AI 技术爆发,联盟迅速吸引超 100 家新成员,目前拥有约 1000 名活跃参与者,致力于解决大规模集群(百万级端点)中的网络性能瓶颈问题。
UEC 的核心目标并非推翻现有以太网架构,而是通过最小化修改实现向后兼容:保留传统以太网的物理层与链路层,针对 AI/HPC 工作负载优化传输层与软件栈,例如引入基于事务的细粒度通信模型,支持发送方 / 接收方双模式拥塞控制,以适配加速器间通信(发送方控制)与存储场景(接收方控制)的差异化需求。
二、技术路径与标准化机制
跨层协同设计
传统以太网协议栈各层(物理层、链路层、传输层)相互隔离,导致开发人员缺乏全局视角。UEC 通过同步召开跨层技术工作组会议,推动物理层、链路层、传输层团队直接协作,打破 “沙盒式” 开发模式。例如,在设计拥塞控制机制时,传输层团队需结合物理层的信号衰减特性与链路层的帧结构限制,实现端到端延迟与带宽的动态平衡。
共识驱动的标准制定
联盟采用高门槛投票机制确保技术共识:对规范有实质性影响的变更需获得 75% 以上成员支持。以拥塞控制为例,发送方与接收方阵营通过多轮技术辩论,最终在规范中同时保留两种模式,通过事务类型标签实现动态切换。这种 “兼容并蓄” 的策略避免了因技术路线之争导致的标准分裂。
聚焦规模化场景
UEC 技术优化主要面向百万级端点集群,重点解决三大挑战:
头部阻塞(HoL Blocking):通过细粒度事务标识(每个事务关联特定内存区域与可靠性需求),实现多路径传输中的无阻塞数据分发;
状态管理:采用无状态连接模型,事务生命周期与通信会话强绑定,避免传统长连接模式下的状态爆炸问题;
异构工作负载适配:定义 AI/HPC 通用通信原语(如全归约、全收集),支持计算任务与存储访问的混合调度。
三、与 Infiniband 的竞合关系
UEC 并非以取代 Infiniband 为目标,而是通过开放生态提供差异化选择:
技术互补:许多 Infiniband 核心开发者同时参与 UEC 标准制定,双方在低延迟通信、RDMA 技术上存在技术交叉。UEC 借鉴 Infiniband 的计算存储融合设计,同时依托以太网的大规模部署基础降低运维门槛;
市场驱动:Infiniband 在万级端点集群中仍具性能优势,但 UEC 通过以太网的成本弹性与生态兼容性(全球 90% 以上网络工程师熟悉以太网协议),有望在百万级规模场景中建立新标杆。业内预测,UEC 的普及将推动 Infiniband 厂商优化定价策略,形成良性竞争。
四、发展路线图与产品落地
标准进度:1.0 规范预计于 2026 年 Q1 正式发布,当前已完成多轮草案评审,进入知识产权(IP)合规审查阶段;
短期规划:规范发布后将优先推进存储原生支持(如 NVMe over Ultra Ethernet)、合规性测试工具开发,并与 SNIA、Open Compute Project(OCP)等组织建立互操作性认证体系;
产品落地:AMD、博通等创始成员已宣布 UEC 就绪产品路线图,首批支持万兆 / 百兆端口的网卡与交换机预计于 2026 年中上市。初期产品因芯片制程与研发投入成本较高,定价可能高于传统以太网设备 20%-30%,但随着规模化生产,成本有望在 2027 年接近传统方案。
五、未来展望:从百万到千万级集群
面对 AI 模型参数爆炸式增长(如万亿参数模型需数千块加速器协同),UEC 正前瞻性研究千万级端点扩展技术,包括:
分层路由架构:在叶脊(Leaf-Spine)拓扑基础上引入区域控制器,实现跨域流量智能调度;
轻量级地址虚拟化:通过动态地址映射减少全局路由表规模,降低控制平面压力;
存算一体通信优化:支持加速器直接访问远程存储节点内存,规避主机 CPU 中转瓶颈。
UEC 的使命是将以太网从 “通用型网络” 升级为 “超算级网络”,其成功与否将取决于能否在保持生态兼容性的同时,突破传统协议的性能天花板。随着 AI 与 HPC 融合加速,这场 “以太网的超算革命” 或将重新定义未来十年的算力基础设施格局。