Groq LPU:​LLM 推理延迟的天花板

火山方舟向量数据库大模型

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

Groq LPU™ 推理引擎

LPU™ 推理引擎(LPU代表语言处理单元™)是 Groq 公司发明的一种新型处理系统,专为处理具有序列组件的计算密集型应用程序(如LLM)而设计。

LPU 推理引擎的设计目的是克服 LLM 面临的两大瓶颈--计算能力和内存带宽。LPU 系统的计算能力相当于或高于图形处理器(GPU),并减少了每个词的计算时间,从而加快了文本序列的生成速度。由于没有外部内存带宽瓶颈,LPU推理引擎比图形处理器的性能高出数个数量级。

Groq LPU 设计简单高效。 这是世界上首个专为推理性能和精度而打造的 语言处理单元™ 推理引擎。它 正在 以每秒超过 300 tokens/s/user 的速度运行 70B 参数的 Llama-3 模型 。(为什么要强调每用户?是为了避免和 GPU 推理性能产生正面冲突。详见《写在云厂商 LLM API 价格调整后》。)

picture.image

LPU 部署在数据中心,与用于训练的 CPU 和 GPU 并列,客户可以选择在本地部署或通过 API 访问。价格如下表所示。汇总版本可参考《盘点国内外大模型推理服务 API 价格

picture.image

Groq 愿景是为人工智能体验树立新的期望: 低延迟、实时交付 的引人注目的推理,而且能效比高,绿色环保。我们对客户、合作伙伴和提示者的承诺是永远让人工智能落地为真。

LPU™推理引擎具有以下特点:

  • 卓越的序列性能

  • 单核心架构

  • 即使在大规模部署时也能维持同步网络

  • 能够自动编译 50B+ 参数的大型语言模型

  • 即时内存访问

  • 即使在较低精度水平下也能保持高精度

Groq 公司简介

人工智能芯片初创公司 Groq 总部位于加州山景城,成立于 2016 年,由 Jonathan Ross 创立,专门为推理(运行生成式 AI 模型)构建芯片。该公司称,其被称为"语言处理单元"(LPU)的芯片不仅速度更快,而且成本仅为传统 AI 硬件的十分之一。

picture.image

  • 该公司目前已部署约 4,500 块芯片,到明年年底将达到 150 万块。

  • 在谷歌工作期间,Ross 帮助发明了谷歌张量处理单元(TPU),这是专门为机器学习设计的芯片。

  • 到目前为止,Groq 已筹集了 3.67 亿美元,最近一笔是 2021 年由老虎环球和 D1 Capital 领投的 3 亿美元融资,估值 11 亿美元。

  • Groq 正备受老虎环球和 Lee Fixel 的 Addition 等公司的支持,准备在下个季度进行新一轮融资,此前刚获得了一小笔现金注资。

    深入解读: 该初创公司的战略有 2B 和 2C 两管齐下。一是向希望在其云基础设施上运行 AI 软件的开发者出售访问权限,二是向运营自己数据中心的客户出售硬件。

  • 它最近收购了 Definitive Intelligence,为一个新的业务部门铺平道路,专注于扩大对客户和开发者的产品和服务。

  • Definitive Intelligence 成立于 2022 年,创始人是 Sunny Madra 和 Gavin Sherry,投资者之一是 Social Capital。(Madra 和 Sherry 此前至少创办过另一家 Social Capital 的投资公司 Autonomic。)

  • Groq 此前唯一的另一次收购是 2022 年并购了 Maxeler Technologies,但 Ross 表示未来可能会有更多并购。

    隐藏细节: 随着生成式人工智能技术、应用和用户的爆炸式增长,对专用计算机芯片的需求也呈直线上升 —— 但供给还没完全跟上。

  • Groq 和其他新贵押注能在市场上占有一席之地,Ross 预测,推理对计算资源的需求将超过训练 —— 这是他公司的绝佳机会。

  • Groq 还将自己定位为比传统基础设施更环保的替代方案,因为对人工智能的碳足迹的担忧也在增长。


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CloudWeGo白皮书:字节跳动云原生微服务架构原理与开源实践
本书总结了字节跳动自2018年以来的微服务架构演进之路
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论