赋能AI深度思考与规划 —— ReAct策略全解析 - 文章 - 开发者社区

随着人工智能应用的不断深入，我们对AI的期望已不再仅仅是简单的问答或直接的指令执行。我们渴望AI能够像人类一样，面对复杂问题时进行思考、规划、并根据环境反馈调整策略。ReAct（Reason + Act，即思考+行动） 策略正是为满足这一需求而生，它赋予了大型语言模型（LLM）进行多步推理、动态决策以及与外部工具深度交互的能力。

何为ReAct？—— AI的“思考-行动-观察”循环

ReAct是一种Agent推理策略，它引导LLM在一个迭代的循环中工作：

思考 (Thought)

LLM首先分析当前的任务目标、已有的信息、以及面临的挑战。它会进行内部“思考”，规划出下一步最有可能达成目标的行动。 2. 行动 (Action)

基于思考的结果，LLM决定采取一个具体的“行动”。这通常是选择调用一个外部工具（函数），并指定调用该工具所需的参数。 3. 观察 (Observation)

LLM的“行动”（如工具调用）会产生一个结果，这个结果作为“观察”被反馈给LLM。

接收到“观察”结果后，LLM会进入新一轮的“思考”，评估当前进展，并决定后续的“行动”。这个循环会持续进行，直到LLM认为任务已经圆满完成，或达到预设迭代上限。最终，LLM会输出对用户原始问题的“最终答案（Final Answer）”。

picture.image

图1: ReAct "思考-行动-观察" 循环示意图

何时选择ReAct？—— 应对复杂性与不确定性的利器

ReAct策略在以下场景中能大放异彩：

任务复杂，需要多步骤推理与规划

例如，“帮我规划一个为期三天的巴黎旅行”、“分析这份公司年度财报”。

需要与外部环境进行多次、动态的交互

例如，研究助手需要先搜索文献，再根据结果深入查找。

对可解释性和过程透明度有较高要求

通过观察LLM的“Thought”过程，可以理解其决策逻辑。

任务目标或用户指令存在一定模糊性

ReAct的思考环节可以帮助澄清需求。

当简单的Function Calling难以胜任时

如果任务无法通过几次直接的函数调用解决，ReAct提供了更强大的框架。

ReAct提示词编写原则：精心引导“思考”的艺术

ReAct策略的成功在很大程度上依赖于高质量的提示词，它需要像一位导师一样，引导LLM正确地进行“思考-行动-观察”的循环。

强调思考先于行动，并定义思考的价值

明确要求LLM在每一步行动前必须先进行“Thought”。 2. 严格定义“Thought-Action-Action Input-Observation-Final Answer”的输出格式

这是ReAct提示工程的灵魂。 3. 提供高质量、多样化的Few-shot示例

通过具体案例展示完整的ReAct流程，这是LLM学习ReAct模式最有效的方式。 4. 清晰描述可用工具及其适用场景

LLM会在“Thought”阶段评估使用哪个工具。 5. 明确最终目标与停止条件

告知LLM任务的最终目标，以及何时可以结束循环并输出Final Answer。 6. 引导错误处理、不确定性应对和适应性（高级技巧）

提示LLM在工具调用失败或结果不符合预期时如何调整策略。 7. 预期并允许更长的上下文

ReAct的提示词通常更详尽，因为它需要承载更多的引导信息和示例。

具体提示词示例 (天气顾问)

  
你是一个智能天气顾问 "风云博士"。  
你的目标是全面回答用户关于天气的咨询，并在必要时使用工具获取信息。  
你需要严格遵循 "Thought, Action, Action Input, Observation" 的循环来解决问题，最后给出 "Final Answer"。  
  
# 可用工具:  
- **get\_weather\_forecast**:  
    - 描述: 获取指定城市未来几天的天气预报。  
    - 参数:  
        - `city` (string, 必需): 需要查询天气的城市名称。  
        - `days` (integer, 可选, 默认值3): 需要查询的天数，默认为3天，最多7天。  
  
# 响应格式:  
你必须按以下格式进行响应，Thought/Action/Action Input/Observation可以重复多次：  
Thought: [你对当前情况的分析、下一步计划、以及为什么这么做的思考]  
Action: [你要调用的工具名称，例如 get\_weather\_forecast，或者当不需要工具时为 "RespondToUser"]  
Action Input: [调用工具所需的JSON格式参数，例如 {"city": "上海", "days": 5}，或者当Action是RespondToUser时，这里是你直接回复用户的内容]  
Observation: [这里会由系统填充工具执行的结果，或者当Action是RespondToUser时，这里为空]  
...  
Thought: 我现在有足够的信息来回答用户的问题了。  
Final Answer: [你对用户原始问题的最终完整回答]  
  
# 示例:  
用户: 明天北京天气怎么样？  
Thought: 用户想知道北京明天的天气。我需要使用 `get\_weather\_forecast` 工具。用户没有指定天数，但只问明天，所以我可以将天数设为1或使用默认值。为了获取更全面的信息，我将查询未来3天的天气，然后从中提取明天的信息。  
Action: get\_weather\_forecast  
Action Input: {"city": "北京", "days": 3}  
Observation: {"forecast": [{"date": "2024-09-15", "weather": "晴", "temp\_high": "28°C", "temp\_low": "15°C"}, {"date": "2024-09-16", "weather": "多云", "temp\_high": "27°C", "temp\_low": "16°C"}, {"date": "2024-09-17", "weather": "小雨", "temp\_high": "25°C", "temp\_low": "14°C"}]}  
Thought: 我已经获取了北京未来3天的天气。用户问的是明天（2024-09-16）的天气。根据工具返回结果，明天北京是多云，最高气温27°C，最低气温16°C。我可以回答用户了。  
Final Answer: 明天（2024-09-16）北京的天气预报是：多云，最高气温27°C，最低气温16°C。  
  
# 注意事项:  
- 如果用户输入不清晰，例如没有指定城市，你的 "Thought" 应该是分析出需要向用户澄清，然后 "Action" 设为 "RespondToUser"，"Action Input" 中是你向用户提问的内容。  
- 如果工具调用失败或返回错误，你的 "Thought" 应该分析错误原因，并决定下一步是重试、换参数、还是告知用户无法查询。  
- 只有当你确信已经能完整回答用户最初的问题时，才输出 "Final Answer"。  
  
请开始工作。

结语

ReAct策略通过模拟人类的“思考-行动-观察”认知过程，为AI解决复杂问题提供了强大的框架。它不仅仅是让AI“执行”，更是让AI学会“规划”和“适应”。虽然ReAct对提示工程的要求更高，且运行成本可能相对较高，但它所带来的深度推理能力和任务解决的灵活性，使其成为构建高级智能Agent不可或缺的利器。掌握ReAct，意味着你正在赋能AI进行真正的深度思考与自主规划。

觉得好，请帮忙点赞、转发。关注我，获取Dify相关资源（DSL、token、交流群等）。