Agent Planning with World Knowledge Model - 文章 - 开发者社区

基于大型语言模型（LLMs）的Agent 在 全局规划 中容易进行 无脑试错 ，在 局部规划 中生成 幻觉动作 ，因为它们对“真实”物理世界的理解不足。人类在面对特定任务时，会利用丰富的先验知识在心中预演整个过程，然后才采取行动，这种知识被称为 全局任务知识 。在任务过程中，还会不断维护一种局部状态知识，代表对 当前世界状态的认知 。缺乏世界知识会导致在早期规划阶段出现盲目试错，在后期则可能导致对当前世界状态的混乱认知并生成幻觉动作。

传统Agent规划与使用世界知识模型的Agent规划

picture.image

为了解决这一问题，提出了 参数化的世界知识模型（WKM：World Knowledge Model） ，以促进Agent规划。模仿人类的心理世界知识模型在任务之前提供全局先验知识，并在任务期间保持局部动态知识。

WKM概述。 智能体模型自身从专家和探索轨迹合成的知识上训练一个世界知识模型，提供先前任务知识以指导全局规划，并提供动态状态知识以协助局部规划。

picture.image

任务知识合成（Task Knowledge Synthesis）：

通过比较专家轨迹和采样轨迹来获取任务知识，这些知识作为指导智能体全局规划的先验知识，防止智能体陷入盲目试错。
使用经验丰富的智能体进行探索，通过训练集生成被拒绝的轨迹，以提取更有针对性的任务知识。
利用智能体自身，根据专家轨迹和被拒绝的轨迹来合成任务知识。

状态知识总结（State Knowledge Summarization）：

状态知识作为动态知识，用于约束智能体的局部规划，防止生成幻觉动作。
引导智能体基于专家轨迹自我总结每个规划步骤的状态知识，确保质量。
构建状态知识库，用于检索，而不是直接将状态知识显式地连接到上下文中。

模型训练（Model Training）：

将生成的世界知识整合到专家轨迹中，并训练一个WKM。
智能体模型需要重新训练，以适应任务知识的整合。
智能体模型和知识模型都使用LoRA共享相同的主干进行训练。

智能体规划与世界知识模型（Agent Planning with World Knowledge Model）：

在推理时，智能体模型在评估任务中使用WKM的辅助进行规划。
知识模型先生成任务知识，然后智能体模型开始规划。
使用状态知识查询状态知识库，检索最近的行动，并结合智能体模型的概率进行加权预测，以确定下一个行动。

WKM在 三个复杂的现实世界模拟数据集 上，与多种强基线（ KnowAgent、ETO、NAT ）相比，取得了 优越的性能。

最佳结果用粗体标记，第二佳结果用下划线标记。 所有基于提示的基线都是在单次提示下评估的，所有基于微调的基线都是通过LoRA训练的。红色表示WKM相对于基线中最优结果的变化。 WKM和Agent模型是不同的LoRAs ，共享相同的主干。

picture.image

对Mistral-7B的消融研究。 w/o all 表示使用纯粹的专家轨迹进行香草经验代理模型训练。w/ state 是在仅有状态知识库约束下测试代理模型。w/ task 表示仅用任务知识指导代理模型。w/ task&state 是我们的WKM，具有任务知识指导和状态知识约束。

picture.image

分析结果表明，WKM可以有效地 减少盲目试错和幻觉动作 ，为智能体对世界的了解提供有力支持。

picture.image

其他有趣的发现包括：

实例级任务知识可以更好地泛化到未见过的任务

picture.image

弱WKM可以指导强Agent模型规划

picture.image

统一WKM训练具有进一步开发的潜力

picture.image


          
Agent Planning with World Knowledge Model
          
https://arxiv.org/pdf/2405.14205
          
https://github.com/zjunlp/WKM