Groq LPU：LLM 推理延迟的天花板

点击下方卡片，关注“ 慢慢学AIGC ”

picture.image

Groq LPU™ 推理引擎

LPU™ 推理引擎(LPU代表语言处理单元™)是 Groq 公司发明的一种新型处理系统，专为处理具有序列组件的计算密集型应用程序(如LLM)而设计。

LPU 推理引擎的设计目的是克服 LLM 面临的两大瓶颈--计算能力和内存带宽。LPU 系统的计算能力相当于或高于图形处理器(GPU)，并减少了每个词的计算时间，从而加快了文本序列的生成速度。由于没有外部内存带宽瓶颈，LPU推理引擎比图形处理器的性能高出数个数量级。

Groq LPU 设计简单高效。这是世界上首个专为推理性能和精度而打造的 语言处理单元™ 推理引擎。它正在 以每秒超过 300 tokens/s/user 的速度运行 70B 参数的 Llama-3 模型 。（为什么要强调每用户？是为了避免和 GPU 推理性能产生正面冲突。详见《写在云厂商 LLM API 价格调整后》。）

picture.image

LPU 部署在数据中心，与用于训练的 CPU 和 GPU 并列，客户可以选择在本地部署或通过 API 访问。价格如下表所示。汇总版本可参考《盘点国内外大模型推理服务 API 价格》

picture.image

Groq 愿景是为人工智能体验树立新的期望： 低延迟、实时交付 的引人注目的推理，而且能效比高，绿色环保。我们对客户、合作伙伴和提示者的承诺是永远让人工智能落地为真。

LPU™推理引擎具有以下特点:

卓越的序列性能
单核心架构
即使在大规模部署时也能维持同步网络
能够自动编译 50B+ 参数的大型语言模型
即时内存访问
即使在较低精度水平下也能保持高精度

Groq 公司简介

人工智能芯片初创公司 Groq 总部位于加州山景城，成立于 2016 年，由 Jonathan Ross 创立，专门为推理(运行生成式 AI 模型)构建芯片。该公司称，其被称为"语言处理单元"(LPU)的芯片不仅速度更快，而且成本仅为传统 AI 硬件的十分之一。

picture.image

该公司目前已部署约 4,500 块芯片，到明年年底将达到 150 万块。
在谷歌工作期间，Ross 帮助发明了谷歌张量处理单元(TPU)，这是专门为机器学习设计的芯片。
到目前为止，Groq 已筹集了 3.67 亿美元，最近一笔是 2021 年由老虎环球和 D1 Capital 领投的 3 亿美元融资，估值 11 亿美元。
Groq 正备受老虎环球和 Lee Fixel 的 Addition 等公司的支持，准备在下个季度进行新一轮融资，此前刚获得了一小笔现金注资。

深入解读: 该初创公司的战略有 2B 和 2C 两管齐下。一是向希望在其云基础设施上运行 AI 软件的开发者出售访问权限，二是向运营自己数据中心的客户出售硬件。
它最近收购了 Definitive Intelligence，为一个新的业务部门铺平道路，专注于扩大对客户和开发者的产品和服务。
Definitive Intelligence 成立于 2022 年,创始人是 Sunny Madra 和 Gavin Sherry，投资者之一是 Social Capital。(Madra 和 Sherry 此前至少创办过另一家 Social Capital 的投资公司 Autonomic。)
Groq 此前唯一的另一次收购是 2022 年并购了 Maxeler Technologies，但 Ross 表示未来可能会有更多并购。

隐藏细节: 随着生成式人工智能技术、应用和用户的爆炸式增长，对专用计算机芯片的需求也呈直线上升 —— 但供给还没完全跟上。
Groq 和其他新贵押注能在市场上占有一席之地，Ross 预测，推理对计算资源的需求将超过训练 —— 这是他公司的绝佳机会。
Groq 还将自己定位为比传统基础设施更环保的替代方案，因为对人工智能的碳足迹的担忧也在增长。

点击下方卡片，关注“ 慢慢学AIGC ”

Groq LPU：​LLM 推理延迟的天花板