成本直降 90%，延迟缩减 85%：深度解读 Prompt Caching 技术原理 - 文章 - 开发者社区

"来自 Ngrok 团队 Sam Rose 关于 Prompt Caching 的技术博客，Sam 从底层原理到厂商实测，非常清晰地揭示了这项技术如何成为 LLM 应用降本增效的“杀手锏”。\x0a\x0a核心原理：缓存的不是“文本”，是“思维状态”\x0a很多人误以为 Prompt Caching 只是简单地存储了输入的文本。实际上，它复用的是模型推理过程中最昂贵的中间产物—— K (Key) 和 V (Value) 矩阵（即 KV Cache）。\x0aLLM 在处理每个 Token 时，都需要通过注意力机制计算它与上下文的关系。\x0a· 无缓存时：每生成一个新字，模型都要重新计算全文的 K/V 矩阵，造成巨大的算力浪费。\x0a· 有缓存时：直接从显存中读取之前算好的矩阵，跳过繁重的矩阵乘法。\x0a这就是为什么它能带来双重红利：既节省了约 90% 的 Token 费用，又将长文本场景下的首字延迟降低了 85%。\x0a\x0a厂商实测：OpenAI vs. Anthropic 的策略差异\x0a在实际落地中，两家主流厂商的策略截然不同，直接影响系统的稳定性：\x0a1. OpenAI（全自动黑盒）：\x0a系统自动尝试路由请求以匹配缓存，开发者无需改代码。但代价是不可控——实测中缓存命中率并不稳定，仅在 50% 左右。\x0a2. Anthropic（手动白盒）：\x0a允许开发者显式设置“缓存断点”。虽然增加了开发门槛，但在规范设置下，实测命中率高达 100%。对于追求极致稳定性的生产环境，Anthropic 目前的表现更优。\x0a\x0a开发者需要关注的技术细节\x0a· 参数无关性：调整 temperature 或 top_p 等采样参数不会导致缓存失效。因为缓存发生在采样之前的注意力计算阶段，这给应用调试留出了很大空间。\x0a· 生命周期：由于 H100 显存极其昂贵，缓存通常只保留 5-10 分钟。想要长期复用，需要保持高频的请求来“刷新”缓存的生命周期。\x0a\x0a总结\x0aPrompt Caching 的本质，是将昂贵的“计算资源”转化为相对廉价的“存储读取”。对于 RAG、长文档分析或多轮对话应用而言，这是一项不仅能省钱，更能显著提升用户体验的关键技术。".replace(/\r/g, ).replace(/\n/g,

).replace(/\s/g, null