小伙伴们大家好哇,我是甲木。
前段时间,一年一度的PEC大会圆满落幕。
这几天,终于抽空把答应给大家的PEC分享整理了一下,
《从Prompt到Context:激活企业级Agent》
去年,我们在PEC大会上,聊了Prompt设计的艺术、探索了Agent的革新。转眼一年过去了,AI圈风起云涌,很多东西又发生了翻天覆地的变化。
从DeepSeek的横空出世,到Manus为代表的泛智能体应用;从Prompt到Context的范式转变,再到GPT-5的发布和NanoBanana的多模态生成……
这次大会上,我们也围绕这些问题进行了一系列深入的探讨。
今天就来和大家回顾一下分享的内容,聊聊我们为什么必须将视野从单一的Prompt,升级到系统的Context工程。
以下是分享全文(不足之处还望指正):
大家好,我是甲木。
非常开心今天下午大家能够来到我们论坛,一起讨论一下关于Prompt和Context相关的一些内容。
今天想给大家分享的就是从Prompt到Context,企业生产场景中的转变思路是什么,以及我们在企业进行Agent应用的时候需要注意哪些事项。
自从2022年底ChatGPT问世以来,“提示词(Prompt)”就成了我们与AI交互的基础。
我们在各个场景里面去应用AI的时候,都少不了提示词。其实提示词它也经历了几个阶段,这里也是看到郭美青老师 的总结,发现看法一致。
静态Prompt工程
这第一个阶段,相信大家都有了解,我们可以称它是ChatGPT问世后的一个交互范式,称之为静态提示词工程 。
我们的交互范式,依赖于模型内置的System Prompt和我们自己给AI定义的User Prompt以及我们的历史对话记录。
我们通过去不断地追加对话,追加上下文,来达到我们想要的一个目的。
在这个阶段,涌现了大量优秀的提示词方法论,比如LangGPT的结构化提示词,以及像财猫的Broke,刚哥提出来的Lisp等等,各种结构化的提示词层出不穷。
在这个阶段,我们就像手工艺人,通过对Messages列表的不断追加,小心翼翼地引导AI,期望它能产出我们想要的结果。
Messages = [ "你是一个xx", "请帮我做yy", "好的,这是yy", "针对yy,请再详细说明zz" ]
在这个阶段,是我们能够最低成本去干涉AI输出结果的能力。我们日常应用中,通过调整我们的Prompt达到我们指定的一个目的。
本质上它仍然是一个静态的这种过程。在这个里边我们每次跟AI去进行对话,让AI给我们生产出来我们期望的一个场景。我们都是对于他对话的一个不断的增加。
这个模式在我们个人日常使用中,足够使用。但一旦进入生产环境,面对成千上万次的调用,它的“手工业”弊端就暴露无遗了。
生产级瓶颈:当“手工业”遇上“流水线”
当我们将精心打磨的Prompt投入到企业级的生产场景时,往往会撞上四堵墙:
首先会遇到上下文的窗口能力,也就是长度限制。这在我们去进行一些场景应用的时候,是一个非常大的痛点。
然后是大家知道的,在一些多步骤的推理过程中,AI容易掉链子。
再加上AI的一些静态知识边界,没有更多的上下文和外挂的知识库。
最后是在很多的错误传播中干扰输出结果,缺乏纠正机制。
我曾有一个亲身经历:一个迭代了6个版本的Prompt,自认为已经相当稳定。但投入5000条真实业务数据进行批量评测后,发现失败率依然高得惊人。
这时我们意识到,真正的解决方案,不在于对Prompt的修修补补,而在于思维的调整。
从 Prompt 到 Context
我们需要将视野从单一的、静态的Prompt,升级为系统的、动态的Context(上下文) 。
那么什么是上下文工程(Context Engineering) ?
这个概念最早并不是AK提出来的,但是他对“上下文”的这个概念专门发了一个帖子,简单总结下来就是下面这张图:
它不再仅仅是给AI下达指令,而是为AI构建一个完整的信息环境,让它能更好地“感知、思考、行动”。
它主要由三部分构成:
1、指令上下文 (Instruction Context)
我们最熟悉的Prompt、对话历史、Few-shot示例等,它定义了AI的行为模式。
指令上下文也就是我们刚才在第一阶段的时候,大家经常会用到的一些Prompt,history,再加上我们有的一些FewShot等等,共同组成它的一个指令上下文。
2、知识上下文 (Knowledge Context)
通过RAG、向量检索等方式,为AI外挂私有知识库,提供决策所需的背景信息。
在这个过程里边,我们如果有一些企业的应用场景,比如说我有部门知识库,企业的专业知识。这时候我们就可以通过知识上下文做RAG,以及我们日常场景下的长时记忆,都可以归为知识上下文中。
3、操作上下文 (Operation Context)
通过工具调用(Tool Calling)、环境反馈(Environment Feedback),让AI能够执行操作,并根据结果进行调整。
我们当下现阶段各个Agent它的一个底层运行的逻辑,其实就是我们通过去调用不同的工具(包括MCP)来达到基于环境反馈达到我们期望的一个结果。
这个转变,标志着我们从“告诉AI做什么”,进化到了“让AI在特定环境中,为了达成目标而自主学习和行动”。
这背后,离不开推理模型(慢思考)能力的显著增强,它将过去很多需要我们用技巧实现的CoT等能力内化了。
这个阶段能够带来模型工具调用能力和推理能力的提升,可以适应更为复杂的任务。
动态提示词工程
随着 O1、DeepSeek-R1 等强大的推理模型出现,模型的能力得到了一个显著的增强。
我们过往AI的执行可以理解为快思考模式,也就是文本模型直接给我们结果。
而现在它能够模仿我们人类的思维,按照我们人类的一个思维链去进行一个慢思考,也就是我们常说的系统一和系统二。这个阶段很多提示词技巧Role-base,或者Few-shot等很多都被更底层的 CoT(Chain-of-Thought)能力所内化和取代。
如图所示,这个阶段增加了很多动态上下文的逻辑:
- Rag Context
- Web Search Context
- Attachment Context
- Tool Context
等等,此时的 Agent 产品,能有限地动态调用工具来丰富上下文,例如查询最新的天气信息或检索网页,读取文件等,再结合COT的思考数据,可以更精准地理解用户的意图,结合这些上下文模型可以得到更为精准和丰富的回答。
郭美青老师画的示意图
在刚才的这个context里面,它之所以能够去进行三个上下文之间的一个联合,也是基于我们推理模型的一个能力提升。
当然此阶段依旧要求我们的Prompt Engineering的核心能力贯穿始终。
生产级Prompt的“工业化”流程
我们要做一个AI应用,要在企业中落地我们的Agent或者是其他的AI应用场景,这几个能力是不可或缺的。
AI技术的理解能力,无需多言,这是基础。然后就是问题的分析能力,也就是我们要学会分析业务场景。
结构化表达能力,刚才给大家看到的各种形式,各种类型的这种prompt。它其实都是对于我们能不能把一个任务,能不能把一个业务去进行一个结构化表达,表达给AI听,让AI所理解给我们输出相关的一个结果。
其它的包括系统架构设计,质量评估,跨域写作等等,都是我们作为Prompt Engineer或者Context Engineer应该具备的基本能力。
接下来,给大家举一个我在千万级调用场景的一个Prompt应用过程。
我们要知道,我们自己去用一个提示词跟企业场景里面百万级的调用,是有一个本质的区别的。自己在使用一个prompt的时候,它的这个容错能力 你都不需要去考虑太多。它这次结果一般,下次你接着去roll,满足日常工作所需就行。
但是在企业级的应用场景中,你提供给用户去使用你的AI场景,只要有一次它没有很好的执行,带来的这个后果是灾难性的。所以,我们追求的是AI相对稳定的一个输出。
从一个惊艳的Prompt(玩具),到一个能在生产环境中稳定运行的Prompt(工具),需要一套工业化的流程。
我通常遵循以下四个步骤:
1、开发与调试 (MVP验证):
先写一个初版Prompt,快速验证AI在这个场景下是否能满足业务需求。只要能跑通,就证明值得继续投入。
2、批量评测 (从1到N):
第二步是比较重要的,在我个人使用的时候,有一个场景就是我迭代了大概5版提示词,我觉得它已经相当的稳定了。但是拿到生产场景里面拿了大概有5000条的case一跑里边的失败的概率还是非常的高。
这时候使用Prompt Pilot或者Prompt flow等工具,将Prompt与成千上万条真实数据结合进行批量测试。这个过程虽然消耗Token,但能确保最终交付的稳定性。
3、智能优化 (追求更优):
基于批量评测的结果,可以利用一些自动化工具反向迭代和优化Prompt,并生成评估报告。
在这个过程中,如果能够实现自动打分和调优当然是更好的,实际上还有很多优化思路。
4、投产与监控 (闭环进化):
上线后,需要建立监控机制,持续追踪用户反馈和AI表现,形成一个不断迭代优化的闭环。
这一切都为了达到生产级的三个核心标准:可重复性(在万次调用中保持稳定)、可量化(有明确的评估和打分标准)、可迭代(基于数据反馈持续演进)。
比如说重复性,重复性是评判你这个prompt它到底好不好以及它到底能不能满足我们需求的一个标准。从0到1很容易,但能不能从1到100000很重要。
第二个就是可量化,我们能不能根据评估标准或者是打分。来评估它的可用性,这里面最靠谱的其实还是人工打分过程..
最后就是不断迭代,达到我们生产场景的目的。
具体可看如何构建生产级Prompt?这四个阶段的工程化方法论值得收藏(by 火山Meetup复盘)
那么,我们能不能为AI去构建一个完整的信息环境,然后让他去自主的感知、思考和行动呢?
动态上下文工程
随着Claude 4等模型在Agentic任务和编程能力上的极大提升,基座模型的 Agentic(智能体)能力实现了质的飞跃。
一批 Agent 如雨后春笋般涌现,Claude Code和Cursor能够自主完成从需求分析到代码实现、再到调试运行的复杂任务。
这个带来了我们的第三个阶段,动态上下文工程
一个复杂的软件开发任务,可能需要运行数小时,执行成百上千次工具调用。这种全新的Agent工作模式,对模型上下文的管理带来了前所未有的挑战。
加上2024年11月份MCP协议的发布和出圈,模型拥有了前所未见的可以使用的标准工具套件,正是这些变革催生了真正的“上下文工程”。
带来了Planning Todolist、ToolCalls & ToolResults、ReAct Result等等不断出现。
“ 关于上下文工程的三个阶段变革可看郭老师的这篇文章,
Context is all you need:一文彻底搞懂上下文工程
这也给我们构建智能体提供了夯实的基础。
Agent的本质,就是大语言模型(LLM)+ 记忆 + 规划 + 工具的组合 ,其运行的核心是LLM + 工具的循环调用。它不再是简单的一问一答,而是一个**“思考 -> 规划 -> 选择工具 -> 执行 -> 反馈 -> 再思考”** 的动态循环。
在企业中落地Agent,我们可以遵循一个从简到繁的路径,正如江树提出的**“AI智能体五层架构理论”** :
- 模型 (Model):AI系统的核心大脑,决定了能力的上限。
- 提示词工程 (Prompt):与AI交互的基础技能,约束模型生成期望的输出。
- 工作流 (Workflow):将企业固定的SOP(如简历筛选、绩效评估)编排成流程,是实现局部赋能的关键。
- AI智能体 (AI Agent):在工作流基础上,加入自主决策能力的系统。
- 多智能体系统 (Multi-Agent):多个AI智能体协同工作,体现群体智能。
当然,我们最终期望的还是通用型智能体,而非编排好的,我们期望实现一个自主运行的智能体。
我们给它下达了一个任务之后,它会针对于我们的一个任务去进行一个自主的规划和拆解,形成一个TODO List。每完成一步,它就进行一个标记。
在这个过程里边,它会基于环境的一个反馈,以及它当下的一个结果,去自行调整,直到得到我们最终的一个输出结果。
比如说Manus,我们可以看到就是让它去帮我们写一个关于FOMO对注意力分配影响的一个论文。
它就会执行相关的一个步骤。它其实我们可以看到自主运行的智能体,它的工作形式最大的一点,它就是基于我们环境的一个反馈,它会不断的去采取或者是不断的去进行行动的一个调整。它知道下一步应该如何去做。
当然,这里Manus也给我们分享了一些经验,全文可看一泽的翻译精标版本Manus 内部的 Context 工程经验
企业级Agent尤为需要注意的点
从理论到实践,我们还需要关注一些具体的工程问题。这里分享两个来自Manus团队的核心实践经验。
1、提高KV缓存命中率
Agent的多次工具调用会产生庞大的上下文,成本极高。通过保持Prompt前缀稳定(将变量后置)、仅追加上下文等方法,可以大幅提高缓存命中率,将成本降低近10倍。
这个极为重要,Agent的搭建对于tokens的消耗大家有目共睹,通过提高我们的KV缓存命中率可以极大降低我们的成本,前缀稳定很重要!
放到具体实践上,我们把一些用户输入的变量尽可能的放到后边。 SystemPrompt这个层面,我们就不要去加一些时间戳也好,或者是对于这个用户姓名,用户画像这些变量,尽可能保持前缀的一个稳定性。
仅追加上下文,避免修改之前的动作或结果,保证序列化过程是确定性的;追加断点等等。
2、将文件系统作为上下文
现代前沿大模型如今已提供高达 128K 甚至更长的上下文窗口。但在真实的智能体场景中,这往往还不够,有时甚至是一种负担。
为了突破上下文窗口的限制,可以将庞大的观测结果(如网页内容)存入本地文件系统,在上下文中只保留URL等轻量级引用。需要时再通过引用调取,实现无限容量的“外部记忆”。
企业级AI应用成熟度
前两天我看到了上海交大一个团队提出来一个叫中国企业应用AI成熟度的模型。也为我们在进行企业方面的AI应用,或者是AI落地,指明了路径。
不要一上来就追求整个组织的AI化,而应从**“探索试验(MVP) -> 局部赋能(单个Workflow) -> 体系优化(部门级)”** 的路径逐步推进。
这是一个很完整的模型,大家去进行企业AI应用的时候,完全可以参考这个实现路径和相关的五级六维参考。
“ 这个报告的全文,我直接放在后台了,回复“企业成熟度 ”即可获取。
时间原因,我的分享就到此结束了,很多内容没有展开来讲。
留下最后一句话,上下文为基,智能成器。
希望大家在进行企业AI落地应用的时候,能从上下文工程出发,做一些业务场景的应用,谢谢大家。
结语
从Prompt到Context,再到Agent,这不仅仅是技术名词的更迭,更是我们与AI协作方式的根本性变革。
我们不再是AI的“指令者”,而是AI的“环境构建师”和“目标设定者”。
上下文为基,智能成器。
为AI构建一个丰富、动态的上下文环境,才能真正激活它的潜能,让它从一个“聪明的玩具”,变成一个能解决实际问题的“可靠的工具”。
希望这次的分享,能对大家有所启发。
我是甲木,热衷于分享AI在各行业的落地应用,我们下期再见👋🏻
如果今天这篇文章对你有“亿点点”启发, 那么,你的点赞👍 + 在看👀 + 转发↗️ 就是我继续肝的最大动力! 我们下期见 👋
