OpenAI神秘项目Q*在经历一系列造势之后,并没有如约而至,OpenAI于今日凌晨发布了一个SWE-bench,用于更可靠地评估AI模型解决显示软件问题的能力。
同时OpenAI在模型上也有了更新: chatgpt-4o-latest
草莓测试专用问题:How many Rs are in Strawberry?,答对。
数学推理测试专用问题:What number is higher? 9.11 or 9.9? 答对。
虽然在一些测试上效果有提升,但是从OpenAI的官网介绍上看 并不是真正的OpenAI Q*项目 (它不是一个新的前沿级模型,ChatGPT用户更喜欢它),应该就是一次普通的迭代升级。
新模型介绍:https://platform.openai.com/docs/models/gpt-4o
模型发布说明:https://help.openai.com/en/articles/9624314-model-release-notes
然而意外的是,今天却迎来了由 AGI公司MultiOn 与 斯坦福大学 联合发布的
Agent Q 项目,它 结合了引导式蒙特卡洛树搜索(MCTS)和AI自我批评,通过迭代微调和基于人类反馈的强化学习(RLFH)以及直接偏好优化(DPO),使大型语言模型(LLM)智能体能够从成功和不成功的轨迹中学习。
Agent Q的关键组成部分
引导搜索(Guided Search with MCTS):
- 蒙特卡洛树搜索(MCTS):一种用于搜索和决策制定的算法,特别适用于复杂的树状结构问题。它通过模拟可能的行动路径来评估和选择最优的行动。
- 应用:在Agent Q中,MCTS用于指导代理在网页环境中的探索。算法从用户查询开始,通过迭代地扩展搜索树来平衡探索(发现新信息)和利用(利用已知信息)。
- UCB1启发式:使用UCB1(Upper Confidence Bound 1)作为选择节点的启发式方法,以平衡探索和利用。
- 状态表示:每个节点表示一个状态,包含了代理的历史和当前网页的DOM(文档对象模型)树。
使用蒙特卡洛树搜索( MCTS )来指导轨迹收集,并使用直接偏好优化( DPO )迭代地提高模型性能。 从左侧开始 ,从数据集中的任务列表中采样一个用户查询。使用 UCB1 作为启发式方法,迭代地扩展搜索树,以平衡不同行动的探索和利用。存储树中每个节点累积获得的奖励,在这张图中, 更深的绿色表示更高的奖励,更深的红色表示更低的奖励 。为了构建偏好数据集,计算 MCTS平均Q值的 加权得分和由反馈语言模型生成的得分,以构建DPO的对比对。策略被优化,并且可以迭代地改进。
AI自我批评(AI Self-Critique):
- 目的:在每一步提供有价值的反馈,帮助代理细化其决策过程。
- 过程:代理在每个节点上生成可能的行动,并使用基础LLM(大型语言模型)对这些行动进行自我评估,提供中间的反馈,作为中间奖励来指导搜索步骤。
- 重要性:对于长期任务来说,这种步骤级的反馈至关重要,因为在这些任务中,稀疏的信号常常导致学习困难。
策略在推理时搜索的每一步提出K个行动。评论家,也初始化为策略所使用的相同的基础LLM模型,对策略提出的行动进行排序。这个排名被用来指导扩展后的节点选择,并在策略训练期间用来构建偏好对。
直接偏好优化(Direct Preference Optimization, DPO):
- 算法基础:一种离线强化学习方法,用于优化策略,使其能够从成功的和不成功的轨迹中学习。
- 偏好对构建:使用MCTS生成的数据来构建节点级别的偏好对,这些偏好对基于AI过程反馈奖励和探索分支的最终成功率进行评分。
- 优化策略:DPO算法通过直接优化偏好对来微调模型,而不是依赖于传统的奖励信号,这使得模型能够从聚合数据集中学习,包括搜索过程中探索的次优分支。
为Agent提供了以下输入格式,包括系统提示、执行历史、当前观察作为DOM表示,以及包含目标的用户查询。我们将代理的输出格式划分为总体的逐步计划、思考、命令和状态码。
不同方法在OpenTable上的成功率 。所有模型都基于LLaMA-3-70B-Instruct。使用DPO和RFT结合MCTS进一步提高了性能,分别从18.6%提高到71.8%和84.3%。展示了Agent Q本身达到了81.7%的成功率,而 Agent Q + MCTS 显著超越了所有其他技术,在OpenTable上的性能达到了 95.4% 。
https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 一篇搭建AI大模型应用平台架构的全面指南
- • RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。