点击下方 卡片 ,关注“ 慢慢学AIGC ”
Groq LPU™ 推理引擎
LPU™ 推理引擎(LPU代表语言处理单元™)是 Groq 公司发明的一种新型处理系统,专为处理具有序列组件的计算密集型应用程序(如LLM)而设计。
LPU 推理引擎的设计目的是克服 LLM 面临的两大瓶颈--计算能力和内存带宽。LPU 系统的计算能力相当于或高于图形处理器(GPU),并减少了每个词的计算时间,从而加快了文本序列的生成速度。由于没有外部内存带宽瓶颈,LPU推理引擎比图形处理器的性能高出数个数量级。
Groq LPU 设计简单高效。 这是世界上首个专为推理性能和精度而打造的 语言处理单元™ 推理引擎。它 正在 以每秒超过 300 tokens/s/user 的速度运行 70B 参数的 Llama-3 模型 。(为什么要强调每用户?是为了避免和 GPU 推理性能产生正面冲突。详见《写在云厂商 LLM API 价格调整后》。)
LPU 部署在数据中心,与用于训练的 CPU 和 GPU 并列,客户可以选择在本地部署或通过 API 访问。价格如下表所示。汇总版本可参考《盘点国内外大模型推理服务 API 价格》
Groq 愿景是为人工智能体验树立新的期望: 低延迟、实时交付 的引人注目的推理,而且能效比高,绿色环保。我们对客户、合作伙伴和提示者的承诺是永远让人工智能落地为真。
LPU™推理引擎具有以下特点:
- 
卓越的序列性能 
- 
单核心架构 
- 
即使在大规模部署时也能维持同步网络 
- 
能够自动编译 50B+ 参数的大型语言模型 
- 
即时内存访问 
- 
即使在较低精度水平下也能保持高精度 
Groq 公司简介
人工智能芯片初创公司 Groq 总部位于加州山景城,成立于 2016 年,由 Jonathan Ross 创立,专门为推理(运行生成式 AI 模型)构建芯片。该公司称,其被称为"语言处理单元"(LPU)的芯片不仅速度更快,而且成本仅为传统 AI 硬件的十分之一。
- 
该公司目前已部署约 4,500 块芯片,到明年年底将达到 150 万块。 
- 
在谷歌工作期间,Ross 帮助发明了谷歌张量处理单元(TPU),这是专门为机器学习设计的芯片。 
- 
到目前为止,Groq 已筹集了 3.67 亿美元,最近一笔是 2021 年由老虎环球和 D1 Capital 领投的 3 亿美元融资,估值 11 亿美元。 
- 
Groq 正备受老虎环球和 Lee Fixel 的 Addition 等公司的支持,准备在下个季度进行新一轮融资,此前刚获得了一小笔现金注资。 深入解读: 该初创公司的战略有 2B 和 2C 两管齐下。一是向希望在其云基础设施上运行 AI 软件的开发者出售访问权限,二是向运营自己数据中心的客户出售硬件。 
- 
它最近收购了 Definitive Intelligence,为一个新的业务部门铺平道路,专注于扩大对客户和开发者的产品和服务。 
- 
Definitive Intelligence 成立于 2022 年,创始人是 Sunny Madra 和 Gavin Sherry,投资者之一是 Social Capital。(Madra 和 Sherry 此前至少创办过另一家 Social Capital 的投资公司 Autonomic。) 
- 
Groq 此前唯一的另一次收购是 2022 年并购了 Maxeler Technologies,但 Ross 表示未来可能会有更多并购。 隐藏细节: 随着生成式人工智能技术、应用和用户的爆炸式增长,对专用计算机芯片的需求也呈直线上升 —— 但供给还没完全跟上。 
- 
Groq 和其他新贵押注能在市场上占有一席之地,Ross 预测,推理对计算资源的需求将超过训练 —— 这是他公司的绝佳机会。 
- 
Groq 还将自己定位为比传统基础设施更环保的替代方案,因为对人工智能的碳足迹的担忧也在增长。 
点击下方 卡片 ,关注“ 慢慢学AIGC ”
