从Prompt到Context：激活企业级Agent（by PEC & AI创新者大会分享） - 文章 - 开发者社区

小伙伴们大家好哇，我是甲木。

picture.image

前段时间，一年一度的PEC大会圆满落幕。

这几天，终于抽空把答应给大家的PEC分享整理了一下，

《从Prompt到Context：激活企业级Agent》

picture.image

去年，我们在PEC大会上，聊了Prompt设计的艺术、探索了Agent的革新。转眼一年过去了，AI圈风起云涌，很多东西又发生了翻天覆地的变化。

从DeepSeek的横空出世，到Manus为代表的泛智能体应用；从Prompt到Context的范式转变，再到GPT-5的发布和NanoBanana的多模态生成……

这次大会上，我们也围绕这些问题进行了一系列深入的探讨。

今天就来和大家回顾一下分享的内容，聊聊我们为什么必须将视野从单一的Prompt，升级到系统的Context工程。

以下是分享全文（不足之处还望指正）：

picture.image

大家好，我是甲木。

非常开心今天下午大家能够来到我们论坛，一起讨论一下关于Prompt和Context相关的一些内容。

今天想给大家分享的就是从Prompt到Context，企业生产场景中的转变思路是什么，以及我们在企业进行Agent应用的时候需要注意哪些事项。

自从2022年底ChatGPT问世以来，“提示词（Prompt）”就成了我们与AI交互的基础。

picture.image

我们在各个场景里面去应用AI的时候，都少不了提示词。其实提示词它也经历了几个阶段，这里也是看到郭美青老师 的总结，发现看法一致。

静态Prompt工程

这第一个阶段，相信大家都有了解，我们可以称它是ChatGPT问世后的一个交互范式，称之为静态提示词工程 。

picture.image

我们的交互范式，依赖于模型内置的System Prompt和我们自己给AI定义的User Prompt以及我们的历史对话记录。

我们通过去不断地追加对话，追加上下文，来达到我们想要的一个目的。

在这个阶段，涌现了大量优秀的提示词方法论，比如LangGPT的结构化提示词，以及像财猫的Broke，刚哥提出来的Lisp等等，各种结构化的提示词层出不穷。

picture.image

在这个阶段，我们就像手工艺人，通过对Messages列表的不断追加，小心翼翼地引导AI，期望它能产出我们想要的结果。

Messages = [ "你是一个xx", "请帮我做yy", "好的，这是yy", "针对yy，请再详细说明zz" ]

在这个阶段，是我们能够最低成本去干涉AI输出结果的能力。我们日常应用中，通过调整我们的Prompt达到我们指定的一个目的。

本质上它仍然是一个静态的这种过程。在这个里边我们每次跟AI去进行对话，让AI给我们生产出来我们期望的一个场景。我们都是对于他对话的一个不断的增加。

picture.image

这个模式在我们个人日常使用中，足够使用。但一旦进入生产环境，面对成千上万次的调用，它的“手工业”弊端就暴露无遗了。

生产级瓶颈：当“手工业”遇上“流水线”

当我们将精心打磨的Prompt投入到企业级的生产场景时，往往会撞上四堵墙：

picture.image

首先会遇到上下文的窗口能力，也就是长度限制。这在我们去进行一些场景应用的时候，是一个非常大的痛点。

然后是大家知道的，在一些多步骤的推理过程中，AI容易掉链子。

再加上AI的一些静态知识边界，没有更多的上下文和外挂的知识库。

最后是在很多的错误传播中干扰输出结果，缺乏纠正机制。

我曾有一个亲身经历：一个迭代了6个版本的Prompt，自认为已经相当稳定。但投入5000条真实业务数据进行批量评测后，发现失败率依然高得惊人。

这时我们意识到，真正的解决方案，不在于对Prompt的修修补补，而在于思维的调整。

picture.image

从 Prompt 到 Context

我们需要将视野从单一的、静态的Prompt，升级为系统的、动态的Context（上下文） 。

那么什么是上下文工程（Context Engineering） ？

这个概念最早并不是AK提出来的，但是他对“上下文”的这个概念专门发了一个帖子，简单总结下来就是下面这张图：

picture.image

它不再仅仅是给AI下达指令，而是为AI构建一个完整的信息环境，让它能更好地“感知、思考、行动”。

它主要由三部分构成：

picture.image

1、指令上下文 (Instruction Context)

我们最熟悉的Prompt、对话历史、Few-shot示例等，它定义了AI的行为模式。

指令上下文也就是我们刚才在第一阶段的时候，大家经常会用到的一些Prompt，history，再加上我们有的一些FewShot等等，共同组成它的一个指令上下文。

2、知识上下文 (Knowledge Context)

通过RAG、向量检索等方式，为AI外挂私有知识库，提供决策所需的背景信息。

在这个过程里边，我们如果有一些企业的应用场景，比如说我有部门知识库，企业的专业知识。这时候我们就可以通过知识上下文做RAG，以及我们日常场景下的长时记忆，都可以归为知识上下文中。

3、操作上下文 (Operation Context)

通过工具调用（Tool Calling）、环境反馈（Environment Feedback），让AI能够执行操作，并根据结果进行调整。

我们当下现阶段各个Agent它的一个底层运行的逻辑，其实就是我们通过去调用不同的工具（包括MCP）来达到基于环境反馈达到我们期望的一个结果。

picture.image

这个转变，标志着我们从“告诉AI做什么”，进化到了“让AI在特定环境中，为了达成目标而自主学习和行动”。

这背后，离不开推理模型（慢思考）能力的显著增强，它将过去很多需要我们用技巧实现的CoT等能力内化了。

这个阶段能够带来模型工具调用能力和推理能力的提升，可以适应更为复杂的任务。

动态提示词工程

随着 O1、DeepSeek-R1 等强大的推理模型出现，模型的能力得到了一个显著的增强。

picture.image

我们过往AI的执行可以理解为快思考模式，也就是文本模型直接给我们结果。

而现在它能够模仿我们人类的思维，按照我们人类的一个思维链去进行一个慢思考，也就是我们常说的系统一和系统二。这个阶段很多提示词技巧Role-base，或者Few-shot等很多都被更底层的 CoT（Chain-of-Thought）能力所内化和取代。

如图所示，这个阶段增加了很多动态上下文的逻辑：

Rag Context
Web Search Context
Attachment Context
Tool Context

等等，此时的 Agent 产品，能有限地动态调用工具来丰富上下文，例如查询最新的天气信息或检索网页，读取文件等，再结合COT的思考数据，可以更精准地理解用户的意图，结合这些上下文模型可以得到更为精准和丰富的回答。

picture.image

郭美青老师画的示意图

在刚才的这个context里面，它之所以能够去进行三个上下文之间的一个联合，也是基于我们推理模型的一个能力提升。

当然此阶段依旧要求我们的Prompt Engineering的核心能力贯穿始终。

生产级Prompt的“工业化”流程

我们要做一个AI应用，要在企业中落地我们的Agent或者是其他的AI应用场景，这几个能力是不可或缺的。

AI技术的理解能力，无需多言，这是基础。然后就是问题的分析能力，也就是我们要学会分析业务场景。

picture.image

结构化表达能力，刚才给大家看到的各种形式，各种类型的这种prompt。它其实都是对于我们能不能把一个任务，能不能把一个业务去进行一个结构化表达，表达给AI听，让AI所理解给我们输出相关的一个结果。

其它的包括系统架构设计，质量评估，跨域写作等等，都是我们作为Prompt Engineer或者Context Engineer应该具备的基本能力。

接下来，给大家举一个我在千万级调用场景的一个Prompt应用过程。

我们要知道，我们自己去用一个提示词跟企业场景里面百万级的调用，是有一个本质的区别的。自己在使用一个prompt的时候，它的这个容错能力 你都不需要去考虑太多。它这次结果一般，下次你接着去roll，满足日常工作所需就行。

picture.image

但是在企业级的应用场景中，你提供给用户去使用你的AI场景，只要有一次它没有很好的执行，带来的这个后果是灾难性的。所以，我们追求的是AI相对稳定的一个输出。

从一个惊艳的Prompt（玩具），到一个能在生产环境中稳定运行的Prompt（工具），需要一套工业化的流程。

我通常遵循以下四个步骤：

picture.image

1、开发与调试 (MVP验证)：

先写一个初版Prompt，快速验证AI在这个场景下是否能满足业务需求。只要能跑通，就证明值得继续投入。

2、批量评测 (从1到N)：

第二步是比较重要的，在我个人使用的时候，有一个场景就是我迭代了大概5版提示词，我觉得它已经相当的稳定了。但是拿到生产场景里面拿了大概有5000条的case一跑里边的失败的概率还是非常的高。

这时候使用Prompt Pilot或者Prompt flow等工具，将Prompt与成千上万条真实数据结合进行批量测试。这个过程虽然消耗Token，但能确保最终交付的稳定性。

3、智能优化 (追求更优)：

基于批量评测的结果，可以利用一些自动化工具反向迭代和优化Prompt，并生成评估报告。

在这个过程中，如果能够实现自动打分和调优当然是更好的，实际上还有很多优化思路。

4、投产与监控 (闭环进化)：

上线后，需要建立监控机制，持续追踪用户反馈和AI表现，形成一个不断迭代优化的闭环。

这一切都为了达到生产级的三个核心标准：可重复性（在万次调用中保持稳定）、可量化（有明确的评估和打分标准）、可迭代（基于数据反馈持续演进）。

picture.image

比如说重复性，重复性是评判你这个prompt它到底好不好以及它到底能不能满足我们需求的一个标准。从0到1很容易，但能不能从1到100000很重要。

第二个就是可量化，我们能不能根据评估标准或者是打分。来评估它的可用性，这里面最靠谱的其实还是人工打分过程..

最后就是不断迭代，达到我们生产场景的目的。

具体可看如何构建生产级Prompt？这四个阶段的工程化方法论值得收藏（by 火山Meetup复盘）

那么，我们能不能为AI去构建一个完整的信息环境，然后让他去自主的感知、思考和行动呢？

动态上下文工程

随着Claude 4等模型在Agentic任务和编程能力上的极大提升，基座模型的 Agentic（智能体）能力实现了质的飞跃。

一批 Agent 如雨后春笋般涌现，Claude Code和Cursor能够自主完成从需求分析到代码实现、再到调试运行的复杂任务。

这个带来了我们的第三个阶段，动态上下文工程

picture.image

一个复杂的软件开发任务，可能需要运行数小时，执行成百上千次工具调用。这种全新的Agent工作模式，对模型上下文的管理带来了前所未有的挑战。

加上2024年11月份MCP协议的发布和出圈，模型拥有了前所未见的可以使用的标准工具套件，正是这些变革催生了真正的“上下文工程”。

带来了Planning Todolist、ToolCalls & ToolResults、ReAct Result等等不断出现。

“ 关于上下文工程的三个阶段变革可看郭老师的这篇文章，

Context is all you need：一文彻底搞懂上下文工程

这也给我们构建智能体提供了夯实的基础。

Agent的本质，就是大语言模型（LLM）+ 记忆 + 规划 + 工具的组合 ，其运行的核心是LLM + 工具的循环调用。它不再是简单的一问一答，而是一个**“思考 -> 规划 -> 选择工具 -> 执行 -> 反馈 -> 再思考”** 的动态循环。

picture.image

在企业中落地Agent，我们可以遵循一个从简到繁的路径，正如江树提出的**“AI智能体五层架构理论”** ：

picture.image

模型 (Model)：AI系统的核心大脑，决定了能力的上限。
提示词工程 (Prompt)：与AI交互的基础技能，约束模型生成期望的输出。
工作流 (Workflow)：将企业固定的SOP（如简历筛选、绩效评估）编排成流程，是实现局部赋能的关键。
AI智能体 (AI Agent)：在工作流基础上，加入自主决策能力的系统。
多智能体系统 (Multi-Agent)：多个AI智能体协同工作，体现群体智能。

当然，我们最终期望的还是通用型智能体，而非编排好的，我们期望实现一个自主运行的智能体。

picture.image

我们给它下达了一个任务之后，它会针对于我们的一个任务去进行一个自主的规划和拆解，形成一个TODO List。每完成一步，它就进行一个标记。

在这个过程里边，它会基于环境的一个反馈，以及它当下的一个结果，去自行调整，直到得到我们最终的一个输出结果。

picture.image

比如说Manus，我们可以看到就是让它去帮我们写一个关于FOMO对注意力分配影响的一个论文。

它就会执行相关的一个步骤。它其实我们可以看到自主运行的智能体，它的工作形式最大的一点，它就是基于我们环境的一个反馈，它会不断的去采取或者是不断的去进行行动的一个调整。它知道下一步应该如何去做。

当然，这里Manus也给我们分享了一些经验，全文可看一泽的翻译精标版本Manus 内部的 Context 工程经验

企业级Agent尤为需要注意的点

从理论到实践，我们还需要关注一些具体的工程问题。这里分享两个来自Manus团队的核心实践经验。

1、提高KV缓存命中率

Agent的多次工具调用会产生庞大的上下文，成本极高。通过保持Prompt前缀稳定（将变量后置）、仅追加上下文等方法，可以大幅提高缓存命中率，将成本降低近10倍。

picture.image

这个极为重要，Agent的搭建对于tokens的消耗大家有目共睹，通过提高我们的KV缓存命中率可以极大降低我们的成本，前缀稳定很重要！

放到具体实践上，我们把一些用户输入的变量尽可能的放到后边。 SystemPrompt这个层面，我们就不要去加一些时间戳也好，或者是对于这个用户姓名，用户画像这些变量，尽可能保持前缀的一个稳定性。

仅追加上下文，避免修改之前的动作或结果，保证序列化过程是确定性的；追加断点等等。

2、将文件系统作为上下文

现代前沿大模型如今已提供高达 128K 甚至更长的上下文窗口。但在真实的智能体场景中，这往往还不够，有时甚至是一种负担。

为了突破上下文窗口的限制，可以将庞大的观测结果（如网页内容）存入本地文件系统，在上下文中只保留URL等轻量级引用。需要时再通过引用调取，实现无限容量的“外部记忆”。

picture.image

企业级AI应用成熟度

前两天我看到了上海交大一个团队提出来一个叫中国企业应用AI成熟度的模型。也为我们在进行企业方面的AI应用，或者是AI落地，指明了路径。

picture.image

不要一上来就追求整个组织的AI化，而应从**“探索试验（MVP） -> 局部赋能（单个Workflow） -> 体系优化（部门级）”** 的路径逐步推进。

这是一个很完整的模型，大家去进行企业AI应用的时候，完全可以参考这个实现路径和相关的五级六维参考。

“ 这个报告的全文，我直接放在后台了，回复“企业成熟度 ”即可获取。

时间原因，我的分享就到此结束了，很多内容没有展开来讲。

留下最后一句话，上下文为基，智能成器。

picture.image

希望大家在进行企业AI落地应用的时候，能从上下文工程出发，做一些业务场景的应用，谢谢大家。

结语

从Prompt到Context，再到Agent，这不仅仅是技术名词的更迭，更是我们与AI协作方式的根本性变革。

我们不再是AI的“指令者”，而是AI的“环境构建师”和“目标设定者”。

上下文为基，智能成器。

为AI构建一个丰富、动态的上下文环境，才能真正激活它的潜能，让它从一个“聪明的玩具”，变成一个能解决实际问题的“可靠的工具”。

希望这次的分享，能对大家有所启发。

picture.image

我是甲木，热衷于分享AI在各行业的落地应用，我们下期再见👋🏻

如果今天这篇文章对你有“亿点点”启发，那么，你的点赞👍 + 在看👀 + 转发↗️ 就是我继续肝的最大动力！我们下期见 👋