AI如何变革软件和硬件开发的范式？ - 文章 - 开发者社区

作者：Puneet Kumar, CEO and Co-founder of Rivos Inc

AI 正推动软硬件设计规则变革，传统服务器硬件开发周期从 18-24 个月压缩至 12 个月，而软件通过优化 Attention 机制

等实现2 年 10 倍性能提升，迫使硬件转向软件定义硬件

（SDH）模式。客户需求从单一性能转向支持多框架、多模型的灵活性，需硬件在运行现有模型高效的同时，快速适配未来模型及框架。解决方案需借鉴GPGPU 架构，结合开源技术与开放标准，通过协作创新避免供应商锁定，实现硬件可编程性与可持续扩展，最终降低功耗、延长硬件生命周期并提升投资效率。

picture.image

一、AI 对软硬件设计的颠覆性影响

硬件开发周期加速：传统服务器硬件周期为18-24 个月，AI 驱动下压缩至12 个月，需更快完成开发、验证与迭代。

软件性能爆发式增长：以 Attention 机制为例，软件优化实现2 年 10 倍性能提升（如 Flash Attention 系列从 2022 到 2024 年迭代 3 次，每次提升 2-3 倍）。

典型案例：vLLM

Paged Attention 提升 3-5 倍，Mamba 模型

逐步替代 Transformer 架构

。

二、客户需求的核心转变：从单一性能到动态灵活性

| 需求维度 | 传统硬件满足度 | AI 时代新需求 | 实现路径 | | --- | --- | --- | --- | | 现有模型效率 | ✅ | 需持续优化 | 硬件针对关键算法专项优化 | | 未来模型支持 | ❌ | 快速适配新模型（如 Mamba） | 可编程架构 + 开源生态 | | 多框架兼容性 | ❌ | 支持 PyTorch

/TensorFlow

/JAX 等多框架 | 开放标准 + 统一编程接口 |

客户对 AI 服务器的核心需求有何变化？

从单一性能转向动态灵活性，要求硬件同时满足：

现有模型高效运行（如 Transformer 优化）；

快速适配未来模型（如 Mamba 替代 Transformer）；

多框架兼容（PyTorch/TensorFlow 等）。

传统专项优化硬件仅能满足第一项，需通过可编程架构 + 开源生态实现后两项。

三、软件定义硬件（SDH）与 GPGPU 架构的应用

SDH 核心设计原则

保留传统编程模型，减少软件迁移成本（如兼容现有代码库）。

硬件层优化核心任务（如矩阵运算），剥离非必要功能以降低功耗与芯片面积。

GPGPU 的适配性

针对 AI 工作负载的高并行、多线程特性设计，支撑前沿研究（如当前 90% 的 AI 模型开发基于 GPGPU）。

四、利用开源的杠杆作用

开源的三大优势

成本优化：通过社区协作共享代码避免重复开发，缩短上市时间，如 vLLM 基于开源社区快速迭代；

灵活性：支持代码透明化与定制化，规避单一供应商锁定，开放标准允许用户混合使用多供应商技术；

协同创新：跨组织合作推动技术迭代（如 vLLM、Flash Attention 均基于开源社区）。

开放标准的作用：解耦系统组件升级（如硬件与软件独立迭代），实现可持续扩展。

五、未来就绪的硬件策略

设计目标：开发支持开源生态的可编程 GPGPU 架构，平衡当前效率与未来适应性。

优先选择参与开源社区的供应商，以实现：

投资优化：硬件可随软件升级延长使用周期。

敏捷部署：基于开放标准灵活切换技术方案。

绿色节能：通过架构优化降低功耗（如减少冗余功能）