AI如何变革软件和硬件开发的范式?

大模型机器学习算法

作者:Puneet Kumar, CEO and Co-founder of Rivos Inc

AI 正推动软硬件设计规则变革,传统服务器硬件开发周期从 18-24 个月压缩至 12 个月,而软件通过优化 Attention 机制

等实现2 年 10 倍性能提升,迫使硬件转向软件定义硬件

(SDH)模式。客户需求从单一性能转向支持多框架、多模型的灵活性,需硬件在运行现有模型高效的同时,快速适配未来模型及框架。解决方案需借鉴GPGPU 架构,结合开源技术与开放标准,通过协作创新避免供应商锁定,实现硬件可编程性与可持续扩展,最终降低功耗、延长硬件生命周期并提升投资效率。

picture.image

一、AI 对软硬件设计的颠覆性影响

硬件开发周期加速:传统服务器硬件周期为18-24 个月,AI 驱动下压缩至12 个月,需更快完成开发、验证与迭代。

软件性能爆发式增长:以 Attention 机制为例,软件优化实现2 年 10 倍性能提升(如 Flash Attention 系列从 2022 到 2024 年迭代 3 次,每次提升 2-3 倍)。

典型案例:vLLM

Paged Attention 提升 3-5 倍,Mamba 模型

逐步替代 Transformer 架构

二、客户需求的核心转变:从单一性能到动态灵活性

| 需求维度 | 传统硬件满足度 | AI 时代新需求 | 实现路径 | | --- | --- | --- | --- | | 现有模型效率 | ✅ | 需持续优化 | 硬件针对关键算法专项优化 | | 未来模型支持 | ❌ | 快速适配新模型(如 Mamba) | 可编程架构 + 开源生态 | | 多框架兼容性 | ❌ | 支持 PyTorch

/TensorFlow

/JAX 等多框架 | 开放标准 + 统一编程接口 |

客户对 AI 服务器的核心需求有何变化?

从单一性能转向动态灵活性,要求硬件同时满足:

现有模型高效运行(如 Transformer 优化);

快速适配未来模型(如 Mamba 替代 Transformer);

多框架兼容(PyTorch/TensorFlow 等)。

传统专项优化硬件仅能满足第一项,需通过可编程架构 + 开源生态实现后两项。

三、软件定义硬件(SDH)与 GPGPU 架构的应用

SDH 核心设计原则

保留传统编程模型,减少软件迁移成本(如兼容现有代码库)。

硬件层优化核心任务(如矩阵运算),剥离非必要功能以降低功耗与芯片面积。

GPGPU 的适配性

针对 AI 工作负载的高并行、多线程特性设计,支撑前沿研究(如当前 90% 的 AI 模型开发基于 GPGPU)。

四、利用开源的杠杆作用

开源的三大优势

成本优化:通过社区协作共享代码避免重复开发,缩短上市时间,如 vLLM 基于开源社区快速迭代;

灵活性:支持代码透明化与定制化,规避单一供应商锁定,开放标准允许用户混合使用多供应商技术;

协同创新:跨组织合作推动技术迭代(如 vLLM、Flash Attention 均基于开源社区)。

开放标准的作用:解耦系统组件升级(如硬件与软件独立迭代),实现可持续扩展。

五、未来就绪的硬件策略

设计目标:开发支持开源生态的可编程 GPGPU 架构,平衡当前效率与未来适应性。

优先选择参与开源社区的供应商,以实现:

投资优化:硬件可随软件升级延长使用周期。

敏捷部署:基于开放标准灵活切换技术方案。

绿色节能:通过架构优化降低功耗(如减少冗余功能)

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论