人工智能(AI)应用的快速发展对数据中心基础设施提出了特殊要求。AI 工作负载具有大量东西向流量,需要高带宽、超低延迟和无损网络环境。RoCEv2 协议常用于实现数据的低延迟传输,同时存在按包或按流负载均衡方式。测试网络接口卡(NIC)性能对确保 AI 基础设施高效运行至关重要,可通过回环测试、流量负载测试和流量干扰测试进行。Teledyne LeCroy 的 Xena E100 Chimera 损伤模拟器、SierraNet M1288 协议分析仪和干扰器以及 Xena Z800 Freya 流量发生器等工具,能模拟真实网络状况,助力 NIC 性能测试与优化,提升网络可靠性和效率。
AI 基础设施需求与架构:AI 应用的发展带来先进技术,但对数据中心基础设施要求独特。AI 工作负载包含学习和推理阶段, 作业完成时间(JCT)是关键性能指标。其流量以东西向为主,需要高带宽、低延迟和无损网络环境。典型 AI 基础设施采用叶脊架构连接 GPU 集群,NIC 连接 GPU 集群与网络,链路速度可达 100Gbps 或 400Gbps ,该架构可减少服务器间跳数,支持负载均衡。
RoCEv2 协议与负载均衡:RoCEv2 协议用于 AI 基础设施中数据的无损、低延迟传输,它将 Infiniband 传输数据包封装在以太网、IP 和 UDP 头中,可在以太网网络中路由。AI 工作负载数据流量大,常采用负载均衡提高资源利用率,常见方式有按包负载均衡和按流负载均衡。按包负载均衡可通过 SmartNIC 实现,SmartNIC 能重新排序乱序数据包,提高网络利用率;按流负载均衡用于传统 NIC,确保同一流的数据包走相同路径,减少乱序包。
NIC 性能测试方法
回环测试:通过网络连接发射器和接收器,中间插入损伤模拟器改变流量,如乱序数据包、改变延迟等,同时用协议分析仪捕获数据包头部进行分析。
流量负载测试:在测试设置中添加流量发生器,发送 RoCEv2 和其他类型流量模拟真实场景,改变链路利用率至 100% ,测试 NIC 在满载下的性能,评估吞吐量和协议行为等。
流量干扰测试:同时测试传输的两个方向,使用流量发生器创建各种流量,干扰器改变或破坏流量,模拟数据包在网络中的重写操作,压力测试系统。
测试工具及功能:
Xena E100 Chimera 损伤模拟器 ,支持10Gbps - 400Gbps 模拟多种网络损伤,支持多种以太网速度,可独立或机架安装,由 XenaManager 软件控制
SierraNet M1288 协议分析仪和干扰器,支持25Gbps - 800Gbps 提供流量捕获、分析、干扰和生成功能,软件可定制数据显示,用于故障排查
Xena Z800 Freya 流量发生器,支持10Gbps - 800Gbps , 测试不同速率以太网,支持多种 SerDes 技术,可生成复杂流量,支持多种协议
Xena Z800 Freya 流量发生器生成各种复杂流量,模拟真实 AI 工作负载;Xena E100 Chimera 损伤模拟器对流量添加延迟、乱序等损伤;SierraNet M1288 协议分析仪和干扰器捕获数据包头部信息进行分析,干扰流量进行压力测试,三者协同从流量生成、损伤模拟到数据分析,完成对 NIC 的全面测试。