爽约的OpenAI Q*，如约的Agent Q! - 文章 - 开发者社区

OpenAI神秘项目Q*在经历一系列造势之后，并没有如约而至，OpenAI于今日凌晨发布了一个SWE-bench，用于更可靠地评估AI模型解决显示软件问题的能力。

lmsys神秘项目疑似GPT-4o新模型？

picture.image

同时OpenAI在模型上也有了更新： chatgpt-4o-latest

picture.image

草莓测试专用问题：How many Rs are in Strawberry?，答对。

数学推理测试专用问题：What number is higher? 9.11 or 9.9? 答对。

picture.image

虽然在一些测试上效果有提升，但是从OpenAI的官网介绍上看 并不是真正的OpenAI Q*项目 （它不是一个新的前沿级模型，ChatGPT用户更喜欢它），应该就是一次普通的迭代升级。

picture.image


          
新模型介绍：https://platform.openai.com/docs/models/gpt-4o
          
模型发布说明：https://help.openai.com/en/articles/9624314-model-release-notes

然而意外的是，今天却迎来了由 AGI公司MultiOn 与 斯坦福大学 联合发布的

Agent Q 项目，它结合了引导式蒙特卡洛树搜索（MCTS）和AI自我批评，通过迭代微调和基于人类反馈的强化学习（RLFH）以及直接偏好优化（DPO），使大型语言模型（LLM）智能体能够从成功和不成功的轨迹中学习。

picture.image

Agent Q的关键组成部分

引导搜索（Guided Search with MCTS）：

蒙特卡洛树搜索（MCTS）：一种用于搜索和决策制定的算法，特别适用于复杂的树状结构问题。它通过模拟可能的行动路径来评估和选择最优的行动。
应用：在Agent Q中，MCTS用于指导代理在网页环境中的探索。算法从用户查询开始，通过迭代地扩展搜索树来平衡探索（发现新信息）和利用（利用已知信息）。
UCB1启发式：使用UCB1（Upper Confidence Bound 1）作为选择节点的启发式方法，以平衡探索和利用。
状态表示：每个节点表示一个状态，包含了代理的历史和当前网页的DOM（文档对象模型）树。

使用蒙特卡洛树搜索（ MCTS ）来指导轨迹收集，并使用直接偏好优化（ DPO ）迭代地提高模型性能。 从左侧开始 ，从数据集中的任务列表中采样一个用户查询。使用 UCB1 作为启发式方法，迭代地扩展搜索树，以平衡不同行动的探索和利用。存储树中每个节点累积获得的奖励，在这张图中， 更深的绿色表示更高的奖励，更深的红色表示更低的奖励 。为了构建偏好数据集，计算 MCTS平均Q值的 加权得分和由反馈语言模型生成的得分，以构建DPO的对比对。策略被优化，并且可以迭代地改进。

picture.image

AI自我批评（AI Self-Critique）：

目的：在每一步提供有价值的反馈，帮助代理细化其决策过程。
过程：代理在每个节点上生成可能的行动，并使用基础LLM（大型语言模型）对这些行动进行自我评估，提供中间的反馈，作为中间奖励来指导搜索步骤。
重要性：对于长期任务来说，这种步骤级的反馈至关重要，因为在这些任务中，稀疏的信号常常导致学习困难。

策略在推理时搜索的每一步提出K个行动。评论家，也初始化为策略所使用的相同的基础LLM模型，对策略提出的行动进行排序。这个排名被用来指导扩展后的节点选择，并在策略训练期间用来构建偏好对。

picture.image

直接偏好优化（Direct Preference Optimization, DPO）：

算法基础：一种离线强化学习方法，用于优化策略，使其能够从成功的和不成功的轨迹中学习。
偏好对构建：使用MCTS生成的数据来构建节点级别的偏好对，这些偏好对基于AI过程反馈奖励和探索分支的最终成功率进行评分。
优化策略：DPO算法通过直接优化偏好对来微调模型，而不是依赖于传统的奖励信号，这使得模型能够从聚合数据集中学习，包括搜索过程中探索的次优分支。

为Agent提供了以下输入格式，包括系统提示、执行历史、当前观察作为DOM表示，以及包含目标的用户查询。我们将代理的输出格式划分为总体的逐步计划、思考、命令和状态码。

picture.image

不同方法在OpenTable上的成功率 。所有模型都基于LLaMA-3-70B-Instruct。使用DPO和RFT结合MCTS进一步提高了性能，分别从18.6%提高到71.8%和84.3%。展示了Agent Q本身达到了81.7%的成功率，而 Agent Q + MCTS 显著超越了所有其他技术，在OpenTable上的性能达到了 95.4% 。

picture.image


          
https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
          
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities