你敢信？Groq让kimi-k2 每秒300+token - 文章 - 开发者社区

最近k2排名出来了世界第三，从此国产又多了一个选择，不知道R2出来是否会更惊艳。本来想在ClaudeCode中使用，推理速度和兼容性都不行，或许使用人数过多吧！我在官方使用也是卡的一批！去Groq看了一眼，模型里有k2了，于是拿来测试了下。还是一鸣惊人。

实测如下：

首字时延662ms|每秒326tokens

picture.image

截屏没法完整截下来，录屏大家感受下：

第一个输出的文字较少，没发挥出来，第二个代码输出比较直观。

对开发者来说时间就是金钱，打个盹的时间就把代码生成完了，体验感真强。

和官网体验的差异在于官网不会让你付费，但用的人多就卡，用Agent需要自己承担免费token之外的费用，按token付费。

本来想再测试下硅基流动的模型速度，他家的API key接口挂了。

对于不了解Grop的同学，我做了一个简介：

**Groq 芯片在“做少”与“靠软件”这两件事上比谁都激进，“做少”让它能用极高的时钟频率把每一层参数一次性推完，“靠软件”让它把内存、带宽、计算三个瓶颈一次解决，于是速度远高于传统 GPU。

传统 GPU 把一个算子（matmul → ReLU → matmul …）切成很多 micro-kernel，中间反复读写 SRAM / HBM，线程调度、cache miss 等开销极大。

Groq 的「Tensor Streaming Processor（TSP）」则做成一条 单指令流、超长流水（Super-scalar Linear Flow） ：

• 单方向流动 ：数据从北端流入，只朝南端流动，绝不回头，省掉访存仲裁、cache coherency。
• 一个时钟周期完成一层网络 ：每一拍都有一组 320×320 的乘加单元在工作，算完直接把结果送给下游单元。
• 全在片上做 ：不需要外部 HBM/DRAM，权重提前“驻”在 4×128 kiB 的 distributed SRAM bank 里，延时固定且可预测。
• 时钟频率 900 MHz-1 GHz，远高于 1.8-2 GHz 的 GDDR6/HBM GPU ，“算得快”+“传得少”= 总吞吐高一个量级。

Groq 的编译器把权重、激活、计算顺序全部离线排好，生成一个可重复的周期表 ：

GPU：

Groq：

• SRAM 单卡 220 MB，足以“整吞”7B-8B 模型权重（以 Int8 为例）。
• 如果 70B/405B 以上模型 → 直接多卡串联、编译器把不同层切成不同卡的 SRAM， 卡间只有 activations 流动，参数永远驻在 SRAM ，因此仍保持确定性时延。

实测对比（官方 & 社区复现）：

• Llama-3-8B 在 GroqChip-1 上 850 token/s，RTX4090 FP16 约 140 token/s，H100 FP16 约 200-230 token/s。
• Llama-2-70B Groq 8 卡 300 token/s；A100 80G×8 PCIe 约 50 token/s。

写内核、调 TileSize、调 TensorCore 这类工作量在 Groq 全部不存在。开发者把 ONNX/GPTQ 模型直接喂给 groqit，剩下都是编译器搞定的“静态”路径。

一句话总结：

别的厂商把 AI 模型当“图形任务”（海量线程 + 通用缓存 + 动态调度），Groq 把它当“硬件电路”——先全铺开，再一口气跑完，所以快得离谱。