爽约的OpenAI Q*,如约的Agent Q!

大模型关系型数据库云安全

OpenAI神秘项目Q*在经历一系列造势之后,并没有如约而至,OpenAI于今日凌晨发布了一个SWE-bench,用于更可靠地评估AI模型解决显示软件问题的能力。

lmsys神秘项目疑似GPT-4o新模型?

picture.image

同时OpenAI在模型上也有了更新: chatgpt-4o-latest

picture.image

picture.image

草莓测试专用问题:How many Rs are in Strawberry?,答对。

数学推理测试专用问题:What number is higher? 9.11 or 9.9? 答对。

picture.image

虽然在一些测试上效果有提升,但是从OpenAI的官网介绍上看 并不是真正的OpenAI Q*项目 (它不是一个新的前沿级模型,ChatGPT用户更喜欢它),应该就是一次普通的迭代升级。

picture.image


          
新模型介绍:https://platform.openai.com/docs/models/gpt-4o
          
模型发布说明:https://help.openai.com/en/articles/9624314-model-release-notes
      

然而意外的是,今天却迎来了由 AGI公司MultiOn斯坦福大学 联合发布的

Agent Q 项目,它 结合了引导式蒙特卡洛树搜索(MCTS)和AI自我批评,通过迭代微调和基于人类反馈的强化学习(RLFH)以及直接偏好优化(DPO),使大型语言模型(LLM)智能体能够从成功和不成功的轨迹中学习。

picture.image

Agent Q的关键组成部分

引导搜索(Guided Search with MCTS):

  • 蒙特卡洛树搜索(MCTS):一种用于搜索和决策制定的算法,特别适用于复杂的树状结构问题。它通过模拟可能的行动路径来评估和选择最优的行动。
  • 应用:在Agent Q中,MCTS用于指导代理在网页环境中的探索。算法从用户查询开始,通过迭代地扩展搜索树来平衡探索(发现新信息)和利用(利用已知信息)。
  • UCB1启发式:使用UCB1(Upper Confidence Bound 1)作为选择节点的启发式方法,以平衡探索和利用。
  • 状态表示:每个节点表示一个状态,包含了代理的历史和当前网页的DOM(文档对象模型)树。

使用蒙特卡洛树搜索( MCTS )来指导轨迹收集,并使用直接偏好优化( DPO )迭代地提高模型性能。 从左侧开始 ,从数据集中的任务列表中采样一个用户查询。使用 UCB1 作为启发式方法,迭代地扩展搜索树,以平衡不同行动的探索和利用。存储树中每个节点累积获得的奖励,在这张图中, 更深的绿色表示更高的奖励,更深的红色表示更低的奖励 。为了构建偏好数据集,计算 MCTS平均Q值的 加权得分和由反馈语言模型生成的得分,以构建DPO的对比对。策略被优化,并且可以迭代地改进。

picture.image

AI自我批评(AI Self-Critique):

  • 目的:在每一步提供有价值的反馈,帮助代理细化其决策过程。
  • 过程:代理在每个节点上生成可能的行动,并使用基础LLM(大型语言模型)对这些行动进行自我评估,提供中间的反馈,作为中间奖励来指导搜索步骤。
  • 重要性:对于长期任务来说,这种步骤级的反馈至关重要,因为在这些任务中,稀疏的信号常常导致学习困难。

策略在推理时搜索的每一步提出K个行动。评论家,也初始化为策略所使用的相同的基础LLM模型,对策略提出的行动进行排序。这个排名被用来指导扩展后的节点选择,并在策略训练期间用来构建偏好对。

picture.image

直接偏好优化(Direct Preference Optimization, DPO):

  • 算法基础:一种离线强化学习方法,用于优化策略,使其能够从成功的和不成功的轨迹中学习。
  • 偏好对构建:使用MCTS生成的数据来构建节点级别的偏好对,这些偏好对基于AI过程反馈奖励和探索分支的最终成功率进行评分。
  • 优化策略:DPO算法通过直接优化偏好对来微调模型,而不是依赖于传统的奖励信号,这使得模型能够从聚合数据集中学习,包括搜索过程中探索的次优分支。

为Agent提供了以下输入格式,包括系统提示、执行历史、当前观察作为DOM表示,以及包含目标的用户查询。我们将代理的输出格式划分为总体的逐步计划、思考、命令和状态码。

picture.image

不同方法在OpenTable上的成功率 。所有模型都基于LLaMA-3-70B-Instruct。使用DPO和RFT结合MCTS进一步提高了性能,分别从18.6%提高到71.8%和84.3%。展示了Agent Q本身达到了81.7%的成功率,而 Agent Q + MCTS 显著超越了所有其他技术,在OpenTable上的性能达到了 95.4%

picture.image


          
https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
          
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论