从Prompt到Context:激活企业级Agent(by PEC & AI创新者大会分享)

企业应用大模型人工智能与算法

小伙伴们大家好哇,我是甲木。

picture.image

前段时间,一年一度的PEC大会圆满落幕。

这几天,终于抽空把答应给大家的PEC分享整理了一下,

《从Prompt到Context:激活企业级Agent》

picture.image

去年,我们在PEC大会上,聊了Prompt设计的艺术、探索了Agent的革新。转眼一年过去了,AI圈风起云涌,很多东西又发生了翻天覆地的变化。

从DeepSeek的横空出世,到Manus为代表的泛智能体应用;从Prompt到Context的范式转变,再到GPT-5的发布和NanoBanana的多模态生成……

这次大会上,我们也围绕这些问题进行了一系列深入的探讨。

今天就来和大家回顾一下分享的内容,聊聊我们为什么必须将视野从单一的Prompt,升级到系统的Context工程。


以下是分享全文(不足之处还望指正):

picture.image

大家好,我是甲木。

非常开心今天下午大家能够来到我们论坛,一起讨论一下关于Prompt和Context相关的一些内容。

今天想给大家分享的就是从Prompt到Context,企业生产场景中的转变思路是什么,以及我们在企业进行Agent应用的时候需要注意哪些事项。

自从2022年底ChatGPT问世以来,“提示词(Prompt)”就成了我们与AI交互的基础。

picture.image

我们在各个场景里面去应用AI的时候,都少不了提示词。其实提示词它也经历了几个阶段,这里也是看到郭美青老师 的总结,发现看法一致。

静态Prompt工程

这第一个阶段,相信大家都有了解,我们可以称它是ChatGPT问世后的一个交互范式,称之为静态提示词工程

picture.image

我们的交互范式,依赖于模型内置的System Prompt和我们自己给AI定义的User Prompt以及我们的历史对话记录。

我们通过去不断地追加对话,追加上下文,来达到我们想要的一个目的。

在这个阶段,涌现了大量优秀的提示词方法论,比如LangGPT的结构化提示词,以及像财猫的Broke,刚哥提出来的Lisp等等,各种结构化的提示词层出不穷。

picture.image

在这个阶段,我们就像手工艺人,通过对Messages列表的不断追加,小心翼翼地引导AI,期望它能产出我们想要的结果。

Messages = [ "你是一个xx", "请帮我做yy", "好的,这是yy", "针对yy,请再详细说明zz" ]

在这个阶段,是我们能够最低成本去干涉AI输出结果的能力。我们日常应用中,通过调整我们的Prompt达到我们指定的一个目的。

本质上它仍然是一个静态的这种过程。在这个里边我们每次跟AI去进行对话,让AI给我们生产出来我们期望的一个场景。我们都是对于他对话的一个不断的增加。

picture.image

这个模式在我们个人日常使用中,足够使用。但一旦进入生产环境,面对成千上万次的调用,它的“手工业”弊端就暴露无遗了。

生产级瓶颈:当“手工业”遇上“流水线”

当我们将精心打磨的Prompt投入到企业级的生产场景时,往往会撞上四堵墙:

picture.image

首先会遇到上下文的窗口能力,也就是长度限制。这在我们去进行一些场景应用的时候,是一个非常大的痛点。

然后是大家知道的,在一些多步骤的推理过程中,AI容易掉链子。

再加上AI的一些静态知识边界,没有更多的上下文和外挂的知识库。

最后是在很多的错误传播中干扰输出结果,缺乏纠正机制。

我曾有一个亲身经历:一个迭代了6个版本的Prompt,自认为已经相当稳定。但投入5000条真实业务数据进行批量评测后,发现失败率依然高得惊人。

这时我们意识到,真正的解决方案,不在于对Prompt的修修补补,而在于思维的调整。

picture.image

从 Prompt 到 Context

我们需要将视野从单一的、静态的Prompt,升级为系统的、动态的Context(上下文)

那么什么是上下文工程(Context Engineering)

这个概念最早并不是AK提出来的,但是他对“上下文”的这个概念专门发了一个帖子,简单总结下来就是下面这张图:

picture.image

它不再仅仅是给AI下达指令,而是为AI构建一个完整的信息环境,让它能更好地“感知、思考、行动”。

它主要由三部分构成:

picture.image

1、指令上下文 (Instruction Context)

我们最熟悉的Prompt、对话历史、Few-shot示例等,它定义了AI的行为模式。

指令上下文也就是我们刚才在第一阶段的时候,大家经常会用到的一些Prompt,history,再加上我们有的一些FewShot等等,共同组成它的一个指令上下文。

2、知识上下文 (Knowledge Context)

通过RAG、向量检索等方式,为AI外挂私有知识库,提供决策所需的背景信息。

在这个过程里边,我们如果有一些企业的应用场景,比如说我有部门知识库,企业的专业知识。这时候我们就可以通过知识上下文做RAG,以及我们日常场景下的长时记忆,都可以归为知识上下文中。

3、操作上下文 (Operation Context)

通过工具调用(Tool Calling)、环境反馈(Environment Feedback),让AI能够执行操作,并根据结果进行调整。

我们当下现阶段各个Agent它的一个底层运行的逻辑,其实就是我们通过去调用不同的工具(包括MCP)来达到基于环境反馈达到我们期望的一个结果。

picture.image

这个转变,标志着我们从“告诉AI做什么”,进化到了“让AI在特定环境中,为了达成目标而自主学习和行动”。

这背后,离不开推理模型(慢思考)能力的显著增强,它将过去很多需要我们用技巧实现的CoT等能力内化了。

这个阶段能够带来模型工具调用能力和推理能力的提升,可以适应更为复杂的任务。

动态提示词工程

随着 O1、DeepSeek-R1 等强大的推理模型出现,模型的能力得到了一个显著的增强。

picture.image

我们过往AI的执行可以理解为快思考模式,也就是文本模型直接给我们结果。

而现在它能够模仿我们人类的思维,按照我们人类的一个思维链去进行一个慢思考,也就是我们常说的系统一和系统二。这个阶段很多提示词技巧Role-base,或者Few-shot等很多都被更底层的 CoT(Chain-of-Thought)能力所内化和取代。

如图所示,这个阶段增加了很多动态上下文的逻辑:

  • Rag Context
  • Web Search Context
  • Attachment Context
  • Tool Context

等等,此时的 Agent 产品,能有限地动态调用工具来丰富上下文,例如查询最新的天气信息或检索网页,读取文件等,再结合COT的思考数据,可以更精准地理解用户的意图,结合这些上下文模型可以得到更为精准和丰富的回答。

picture.image

郭美青老师画的示意图

在刚才的这个context里面,它之所以能够去进行三个上下文之间的一个联合,也是基于我们推理模型的一个能力提升。

当然此阶段依旧要求我们的Prompt Engineering的核心能力贯穿始终。

生产级Prompt的“工业化”流程

我们要做一个AI应用,要在企业中落地我们的Agent或者是其他的AI应用场景,这几个能力是不可或缺的。

AI技术的理解能力,无需多言,这是基础。然后就是问题的分析能力,也就是我们要学会分析业务场景。

picture.image

结构化表达能力,刚才给大家看到的各种形式,各种类型的这种prompt。它其实都是对于我们能不能把一个任务,能不能把一个业务去进行一个结构化表达,表达给AI听,让AI所理解给我们输出相关的一个结果。

其它的包括系统架构设计,质量评估,跨域写作等等,都是我们作为Prompt Engineer或者Context Engineer应该具备的基本能力。

接下来,给大家举一个我在千万级调用场景的一个Prompt应用过程。

我们要知道,我们自己去用一个提示词跟企业场景里面百万级的调用,是有一个本质的区别的。自己在使用一个prompt的时候,它的这个容错能力 你都不需要去考虑太多。它这次结果一般,下次你接着去roll,满足日常工作所需就行。

picture.image

但是在企业级的应用场景中,你提供给用户去使用你的AI场景,只要有一次它没有很好的执行,带来的这个后果是灾难性的。所以,我们追求的是AI相对稳定的一个输出。

从一个惊艳的Prompt(玩具),到一个能在生产环境中稳定运行的Prompt(工具),需要一套工业化的流程。

我通常遵循以下四个步骤:

picture.image

1、开发与调试 (MVP验证):

先写一个初版Prompt,快速验证AI在这个场景下是否能满足业务需求。只要能跑通,就证明值得继续投入。

2、批量评测 (从1到N):

第二步是比较重要的,在我个人使用的时候,有一个场景就是我迭代了大概5版提示词,我觉得它已经相当的稳定了。但是拿到生产场景里面拿了大概有5000条的case一跑里边的失败的概率还是非常的高。

这时候使用Prompt Pilot或者Prompt flow等工具,将Prompt与成千上万条真实数据结合进行批量测试。这个过程虽然消耗Token,但能确保最终交付的稳定性。

3、智能优化 (追求更优):

基于批量评测的结果,可以利用一些自动化工具反向迭代和优化Prompt,并生成评估报告。

在这个过程中,如果能够实现自动打分和调优当然是更好的,实际上还有很多优化思路。

4、投产与监控 (闭环进化):

上线后,需要建立监控机制,持续追踪用户反馈和AI表现,形成一个不断迭代优化的闭环。

这一切都为了达到生产级的三个核心标准:可重复性(在万次调用中保持稳定)、可量化(有明确的评估和打分标准)、可迭代(基于数据反馈持续演进)。

picture.image

比如说重复性,重复性是评判你这个prompt它到底好不好以及它到底能不能满足我们需求的一个标准。从0到1很容易,但能不能从1到100000很重要。

第二个就是可量化,我们能不能根据评估标准或者是打分。来评估它的可用性,这里面最靠谱的其实还是人工打分过程..

最后就是不断迭代,达到我们生产场景的目的。

具体可看如何构建生产级Prompt?这四个阶段的工程化方法论值得收藏(by 火山Meetup复盘)

那么,我们能不能为AI去构建一个完整的信息环境,然后让他去自主的感知、思考和行动呢?

动态上下文工程

随着Claude 4等模型在Agentic任务和编程能力上的极大提升,基座模型的 Agentic(智能体)能力实现了质的飞跃。

一批 Agent 如雨后春笋般涌现,Claude Code和Cursor能够自主完成从需求分析到代码实现、再到调试运行的复杂任务。

这个带来了我们的第三个阶段,动态上下文工程

picture.image

一个复杂的软件开发任务,可能需要运行数小时,执行成百上千次工具调用。这种全新的Agent工作模式,对模型上下文的管理带来了前所未有的挑战。

加上2024年11月份MCP协议的发布和出圈,模型拥有了前所未见的可以使用的标准工具套件,正是这些变革催生了真正的“上下文工程”。

带来了Planning Todolist、ToolCalls & ToolResults、ReAct Result等等不断出现。

“ 关于上下文工程的三个阶段变革可看郭老师的这篇文章,

Context is all you need:一文彻底搞懂上下文工程

这也给我们构建智能体提供了夯实的基础。

Agent的本质,就是大语言模型(LLM)+ 记忆 + 规划 + 工具的组合 ,其运行的核心是LLM + 工具的循环调用。它不再是简单的一问一答,而是一个**“思考 -> 规划 -> 选择工具 -> 执行 -> 反馈 -> 再思考”** 的动态循环。

picture.image

在企业中落地Agent,我们可以遵循一个从简到繁的路径,正如江树提出的**“AI智能体五层架构理论”** :

picture.image

  • 模型 (Model):AI系统的核心大脑,决定了能力的上限。
  • 提示词工程 (Prompt):与AI交互的基础技能,约束模型生成期望的输出。
  • 工作流 (Workflow):将企业固定的SOP(如简历筛选、绩效评估)编排成流程,是实现局部赋能的关键。
  • AI智能体 (AI Agent):在工作流基础上,加入自主决策能力的系统。
  • 多智能体系统 (Multi-Agent):多个AI智能体协同工作,体现群体智能。

当然,我们最终期望的还是通用型智能体,而非编排好的,我们期望实现一个自主运行的智能体。

picture.image

我们给它下达了一个任务之后,它会针对于我们的一个任务去进行一个自主的规划和拆解,形成一个TODO List。每完成一步,它就进行一个标记。

在这个过程里边,它会基于环境的一个反馈,以及它当下的一个结果,去自行调整,直到得到我们最终的一个输出结果。

picture.image

比如说Manus,我们可以看到就是让它去帮我们写一个关于FOMO对注意力分配影响的一个论文。

它就会执行相关的一个步骤。它其实我们可以看到自主运行的智能体,它的工作形式最大的一点,它就是基于我们环境的一个反馈,它会不断的去采取或者是不断的去进行行动的一个调整。它知道下一步应该如何去做。

当然,这里Manus也给我们分享了一些经验,全文可看一泽的翻译精标版本Manus 内部的 Context 工程经验

企业级Agent尤为需要注意的点

从理论到实践,我们还需要关注一些具体的工程问题。这里分享两个来自Manus团队的核心实践经验。

1、提高KV缓存命中率

Agent的多次工具调用会产生庞大的上下文,成本极高。通过保持Prompt前缀稳定(将变量后置)、仅追加上下文等方法,可以大幅提高缓存命中率,将成本降低近10倍。

picture.image

这个极为重要,Agent的搭建对于tokens的消耗大家有目共睹,通过提高我们的KV缓存命中率可以极大降低我们的成本,前缀稳定很重要!

放到具体实践上,我们把一些用户输入的变量尽可能的放到后边。 SystemPrompt这个层面,我们就不要去加一些时间戳也好,或者是对于这个用户姓名,用户画像这些变量,尽可能保持前缀的一个稳定性。

仅追加上下文,避免修改之前的动作或结果,保证序列化过程是确定性的;追加断点等等。

2、将文件系统作为上下文

现代前沿大模型如今已提供高达 128K 甚至更长的上下文窗口。但在真实的智能体场景中,这往往还不够,有时甚至是一种负担。

为了突破上下文窗口的限制,可以将庞大的观测结果(如网页内容)存入本地文件系统,在上下文中只保留URL等轻量级引用。需要时再通过引用调取,实现无限容量的“外部记忆”。

picture.image

企业级AI应用成熟度

前两天我看到了上海交大一个团队提出来一个叫中国企业应用AI成熟度的模型。也为我们在进行企业方面的AI应用,或者是AI落地,指明了路径。

picture.image

不要一上来就追求整个组织的AI化,而应从**“探索试验(MVP) -> 局部赋能(单个Workflow) -> 体系优化(部门级)”** 的路径逐步推进。

这是一个很完整的模型,大家去进行企业AI应用的时候,完全可以参考这个实现路径和相关的五级六维参考。

“ 这个报告的全文,我直接放在后台了,回复“企业成熟度 ”即可获取。

时间原因,我的分享就到此结束了,很多内容没有展开来讲。

留下最后一句话,上下文为基,智能成器。

picture.image

希望大家在进行企业AI落地应用的时候,能从上下文工程出发,做一些业务场景的应用,谢谢大家。


结语

从Prompt到Context,再到Agent,这不仅仅是技术名词的更迭,更是我们与AI协作方式的根本性变革。

我们不再是AI的“指令者”,而是AI的“环境构建师”和“目标设定者”。

上下文为基,智能成器。

为AI构建一个丰富、动态的上下文环境,才能真正激活它的潜能,让它从一个“聪明的玩具”,变成一个能解决实际问题的“可靠的工具”。

希望这次的分享,能对大家有所启发。

picture.image

我是甲木,热衷于分享AI在各行业的落地应用,我们下期再见👋🏻

如果今天这篇文章对你有“亿点点”启发, 那么,你的点赞👍 + 在看👀 + 转发↗️ 就是我继续肝的最大动力! 我们下期见 👋

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论