作者:Puneet Kumar, CEO and Co-founder of Rivos Inc
AI 正推动软硬件设计规则变革,传统服务器硬件开发周期从 18-24 个月压缩至 12 个月,而软件通过优化 Attention 机制
等实现2 年 10 倍性能提升,迫使硬件转向软件定义硬件
(SDH)模式。客户需求从单一性能转向支持多框架、多模型的灵活性,需硬件在运行现有模型高效的同时,快速适配未来模型及框架。解决方案需借鉴GPGPU 架构,结合开源技术与开放标准,通过协作创新避免供应商锁定,实现硬件可编程性与可持续扩展,最终降低功耗、延长硬件生命周期并提升投资效率。
一、AI 对软硬件设计的颠覆性影响
硬件开发周期加速:传统服务器硬件周期为18-24 个月,AI 驱动下压缩至12 个月,需更快完成开发、验证与迭代。
软件性能爆发式增长:以 Attention 机制为例,软件优化实现2 年 10 倍性能提升(如 Flash Attention 系列从 2022 到 2024 年迭代 3 次,每次提升 2-3 倍)。
典型案例:vLLM
Paged Attention 提升 3-5 倍,Mamba 模型
逐步替代 Transformer 架构
。
二、客户需求的核心转变:从单一性能到动态灵活性
| 需求维度 | 传统硬件满足度 | AI 时代新需求 | 实现路径 | | --- | --- | --- | --- | | 现有模型效率 | ✅ | 需持续优化 | 硬件针对关键算法专项优化 | | 未来模型支持 | ❌ | 快速适配新模型(如 Mamba) | 可编程架构 + 开源生态 | | 多框架兼容性 | ❌ | 支持 PyTorch
/TensorFlow
/JAX 等多框架 | 开放标准 + 统一编程接口 |
客户对 AI 服务器的核心需求有何变化?
从单一性能转向动态灵活性,要求硬件同时满足:
现有模型高效运行(如 Transformer 优化);
快速适配未来模型(如 Mamba 替代 Transformer);
多框架兼容(PyTorch/TensorFlow 等)。
传统专项优化硬件仅能满足第一项,需通过可编程架构 + 开源生态实现后两项。
三、软件定义硬件(SDH)与 GPGPU 架构的应用
SDH 核心设计原则
保留传统编程模型,减少软件迁移成本(如兼容现有代码库)。
硬件层优化核心任务(如矩阵运算),剥离非必要功能以降低功耗与芯片面积。
GPGPU 的适配性
针对 AI 工作负载的高并行、多线程特性设计,支撑前沿研究(如当前 90% 的 AI 模型开发基于 GPGPU)。
四、利用开源的杠杆作用
开源的三大优势
成本优化:通过社区协作共享代码避免重复开发,缩短上市时间,如 vLLM 基于开源社区快速迭代;
灵活性:支持代码透明化与定制化,规避单一供应商锁定,开放标准允许用户混合使用多供应商技术;
协同创新:跨组织合作推动技术迭代(如 vLLM、Flash Attention 均基于开源社区)。
开放标准的作用:解耦系统组件升级(如硬件与软件独立迭代),实现可持续扩展。
五、未来就绪的硬件策略
设计目标:开发支持开源生态的可编程 GPGPU 架构,平衡当前效率与未来适应性。
优先选择参与开源社区的供应商,以实现:
投资优化:硬件可随软件升级延长使用周期。
敏捷部署:基于开放标准灵活切换技术方案。
绿色节能:通过架构优化降低功耗(如减少冗余功能)