最近k2排名出来了世界第三,从此国产又多了一个选择,不知道R2出来是否会更惊艳。本来想在ClaudeCode中使用,推理速度和兼容性都不行,或许使用人数过多吧!我在官方使用也是卡的一批!去Groq看了一眼,模型里有k2了,于是拿来测试了下。还是一鸣惊人。
实测如下:
首字时延662ms|每秒326tokens
截屏没法完整截下来,录屏大家感受下:
第一个输出的文字较少,没发挥出来,第二个代码输出比较直观。
对开发者来说时间就是金钱,打个盹的时间就把代码生成完了,体验感真强。
和官网体验的差异在于官网不会让你付费,但用的人多就卡,用Agent需要自己承担免费token之外的费用,按token付费。
本来想再测试下硅基流动的模型速度,他家的API key接口挂了。
对于不了解Grop的同学,我做了一个简介:
**Groq 芯片在“做少”与“靠软件”这两件事上比谁都激进,“做少”让它能用极高的时钟频率把每一层参数一次性推完,“靠软件”让它把内存、带宽、计算三个瓶颈一次解决,于是速度远高于传统 GPU。
-
- TSP 架构:把 GPU 的三级流水变成了单级超长流水
传统 GPU 把一个算子(matmul → ReLU → matmul …)切成很多 micro-kernel,中间反复读写 SRAM / HBM,线程调度、cache miss 等开销极大。
Groq 的「Tensor Streaming Processor(TSP)」则做成一条 单指令流、超长流水(Super-scalar Linear Flow) :
- • 单方向流动 :数据从北端流入,只朝南端流动,绝不回头,省掉访存仲裁、cache coherency。
- • 一个时钟周期完成一层网络 :每一拍都有一组 320×320 的乘加单元在工作,算完直接把结果送给下游单元。
- • 全在片上做 :不需要外部 HBM/DRAM,权重提前“驻”在 4×128 kiB 的 distributed SRAM bank 里,延时固定且可预测。
- • 时钟频率 900 MHz-1 GHz,远高于 1.8-2 GHz 的 GDDR6/HBM GPU ,“算得快”+“传得少”= 总吞吐高一个量级。
-
- 确定性编译器:先算好路径,再生成“零碰撞”指令
Groq 的编译器把权重、激活、计算顺序全部离线排好,生成一个可重复的周期表 :
- • 无 cache miss、无线程分歧、无不一致,延迟固定;
- • 片上网络(2-D mesh,每拍交换 256 bit 数据),路由路径编译阶段固定,像“火车时刻表”,任何两数据不会在同一个 crossbar 撞车;
- • RAM → SRAM → ALU 的延迟也被提前写进指令,硬件只需硬执行,省掉“动态调度”带来的功耗 + 复杂度。
-
- 内存墙 & 带宽墙一起拆掉
GPU:
- • 模型参数 > 显存 → 需分片 + PCIe 反复搬运,带宽成为天花板。
Groq:
- • SRAM 单卡 220 MB,足以“整吞”7B-8B 模型权重(以 Int8 为例)。
- • 如果 70B/405B 以上模型 → 直接多卡串联、编译器把不同层切成不同卡的 SRAM, 卡间只有 activations 流动,参数永远驻在 SRAM ,因此仍保持确定性时延。
实测对比(官方 & 社区复现):
- • Llama-3-8B 在 GroqChip-1 上 850 token/s,RTX4090 FP16 约 140 token/s,H100 FP16 约 200-230 token/s。
- • Llama-2-70B Groq 8 卡 300 token/s;A100 80G×8 PCIe 约 50 token/s。
-
- 软件栈极简:没有 kernel fusion,没有 CUDA 坑
写内核、调 TileSize、调 TensorCore 这类工作量在 Groq 全部不存在。开发者把 ONNX/GPTQ 模型直接喂给 groqit,剩下都是编译器搞定的“静态”路径。
一句话总结:
别的厂商把 AI 模型当“图形任务”(海量线程 + 通用缓存 + 动态调度),Groq 把它当“硬件电路”——先全铺开,再一口气跑完,所以快得离谱。
