前沿重器[78] | 美团WowService（下）：多智能体和评估实现闭环 - 文章 - 开发者社区

前沿重器

栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。（算起来，专项启动已经是20年的事了！）

2024年文章合集最新发布！在这里：再添近20万字-CS的陋室2024年文章合集更新

往期回顾

上回书说到，美团LongCat团队出了一篇很全面的技术报告，全文系统阐述了如何通过大语言模型与多智能体架构重塑智能交互系统，实现用户满意度提升与成本降低的双重目标，上一篇文章主要讲的是模型选择好训练部分的内容（前沿重器[77] | 美团WOWService（上）：四阶段训练打造高质量可维护的对话模型），本文继续讲，主要讲一下Agent和评估部分的内容。

原论文：https://arxiv.org/pdf/2510.13291
Higher Satisfaction, Lower Cost: A Technical Report on How LLMs Revolutionize Meituan’s Intelligent Interaction Systems

文章想带着大家精读，本以为3章的核心内容，想着分3篇讲，结果发现后两章内容较为简略，故合并为两篇进行解读。

摘要和模型选择部分。对应论文第一章和第二章。（前沿重器[77] | 美团WOWService（上）：四阶段训练打造高质量可维护的对话模型）
智能体、评估体系和结论。对应论文第三章。（本文）

Agent

外呼智能体
主动协作智能体
多模态理解智能体

评价

模型自动化评估
基座模型评估
智能体评估

文章结论
小结

Agent

文章指出，单个Agent无法满足复杂而多样的需求，因此多智能体系统还是非常有必要的（MAS），多个智能体协作协调，放大单个Agent的能力。论文内提出了一种多智能体架构，遵循Agents-as-Tools框架，主智能体保持对话控制权，同时动态调用专业智能体处理子任务。

另外，作者还引入Handoff模式元素，智能体可将任务单向委托给另一专业智能体并移交控制权与上下文，作者评价该模式虽然灵活度有限且开发开销高，但其透明工作流能保证整体的可靠性。Handoff和Agents-as-Tools框架结合，能兼顾自适应敏感性和可靠性，在自然交互的同时提供高质量沟通体验。

外呼智能体

外呼智能体这一节实在是很短，只是简短地讲了讲思路，分以下的步骤。

主对话智能体首先发出有效外呼请求。
子智能体开始干活：解析子智能体随后提取呼叫参数，执行子智能体拨打电话；收集子智能体获取通话结果。
主智能体最终汇总子智能体返回的信息并向用户报告结果。

主动协作智能体

一般的智能体项目，需要通过标准化用户输入，才能触发子智能体完成实际任务，这个工作在老一代被称为意图识别，在Agent被称为Router或者Planner，此类系统架构依赖多个子场景模型，缺乏跨场景切换的灵活性，此外智能交互系统在这里是一个被动的响应，对用户的要求高，沟通效率低，这对问题的解决会有些阻碍。

因此，本文引入了跨所有服务场景的主动协作智能体组件，对话开始时的主动意图挖掘与多场景适配。

picture.image

主动意图挖掘模块检测潜在用户需求并主动确认。系统首先检查初始信号是否足够强以支持准确预测。

若信号强，则提出单一最可能问题，并生成三段式短脚本：说明所用信号、向用户确认问题、随后推进或给出解决方案；
若信号不足，则提供可能问题列表供用户选择。

从图上来看，本质是根据用户画像、场景等方式，主动识别用户意图，并向用推荐出预设问题，这么一聊就有点像搜索系统的搜索前推荐了，这个的话早在21年左右就有在一篇文章里提到，同样是美团的（前沿重器[12] | 美团搜索引导技术启示），大家要应该体会到其中的异曲同工之妙。

在确定用户需求后，多场景适配策略根据用户回复识别合适的服务场景，此时会利用预定义规则检索各个场景的信号，实现单对话内的场景切换，确保工作流一致。注意，这是一个统一的交互服务智能体，全场景统一模型按前述方法训练，训练的时候是通过冗余信息、复杂多样上下文来学习，推理的时候则仅检索相关信号进行推理，这样会有效降低训练和部署成本，提升多场景交互体验。

这个多场景适配，听起来和之前写腾讯元宝搜索的Function Calling很像（前沿重器[75] | 腾讯元宝重磅出击：Agentic RAG如何让搜索“重生”）。在Query Planning模块内，会有改写模型对query进行改写，然后用改写后query去召回插件，在美团的文章中，则是会在识别后，利用预定义规则来检索场景，然后在场景下回答，本质也就和Tool User或者是Function Calling类似了。而且这个检索的过程，某种程度也算是一种路由的转移，这么看就不那么像一个新玩意，只是一个类似的操作有了新的概念解释了。

多模态理解智能体

美团场景中同样有语音、图像与视频等非文本模态，在这个系统中同样集成了多模态模型。这一节更多的是说思路吧，未深入技术实现细节。

首先，还是会经历一层开源模型的验证，主要是验证多模态这个工作是否对在线服务有积极作用，在此基础上，才会开始投入开始训练业务模型。随后便有了自研模型，在多场景下拓展，并在效果和延迟上优于GPT-4o。

然后便是语音模型，语音是重要的输入和输出端，此处也有大量工作（没展开说），最终达成的目标是：更紧密的多模态对齐、无缝集成的函数调用能力，以及增强的安全性。

评价

评价不仅是针对于最终的效果好坏，还贯穿在模型训练更新的全过程。文章建立了一个完整的框架，支持端到端的人工和自动评估工作流。如下图所示。（这张图本质上就值得用一篇文章来讲了，内部能讲的挺多，但论文讲的不算多，我后面再找个机会展开说一下吧，我们先跟着论文继续读下去）

picture.image

框架有两个核心内容，分别是评估集构建和评估的执行。

评估集构建包括数据分布设计（反馈实际场景分布）、数据采样（按照难度、长度等多维度分层抽样，其余维度正态或均匀分布，保持代表性）和指标设计（GSB、MOS、perfect rate等）。
评估执行则包括人工评估（盲评+多人评）和模型评估（专用模型自动打分并生成理由，还需要和人工交叉验证确保一致率）。

模型自动化评估

众所周知，人工评估的成本高而且一致性差，这刚好是模型的优势，对单轮会分为4档评分，-1表示违反红线，后续的0-1-2则对应不满意、满意、优秀表现。

评估会分为4步逐步进行。

数据聚合和输入准备。准备结构化输入，包括历史对话、模型回复、带CoT的黄金标准答案及评分细则。
智能体评分，将模型分为3个并行的二分类任务，-1判别器、2判别器和0判别器。（这个方式刚开始看还挺有惊喜感，仔细想又很有道理的，单独评分能确保独立性，从而把模型对分数值的把控变为对是否的把控，问题降维，而-1，本身规则更复杂，拆解开分别处理会更好）
决策路由。3个并行任务的评分进行聚合，无冲突的直接输出。
对冲突的结果，最后有一个更强的决策模型来做最终裁定。

基座模型评估

这也就是对第二章的模型的评估了。基座模型的评估需要从业务场景脱离出来，此处是指要和系统工程、外部工具和知识库隔离，而又要能充分评估模型在现实场景的能力。注意看一套评估标准（benchmark）需要包含哪些成分，我们自己在现实场景的设计也可以按照这个模式来设计。

数据集上，由线上真实流量清洗处理后的数据组成，并辅以部分人工构造数据。
采样上，按照难度、长度等维度以设定比例进行分层随机采样，其余维度按正态或均匀分布随机采样。
评估集每条样本包含输入prompt、元数据（如关键评估点）、正确答案（ground truth）。为保证稳定性，每条都会跑3次确认平均值。
指标上，有总得分（整体情况）、可用率（2-3分占比）、完美率（3分占比）。

智能体评估

智能体评估已经相当于是整体的端到端评估了，文章主要给出两个评估视角。

整体任务完成效率。
追踪内部轨迹，对执行逻辑和关键检查点进行细粒度评价。

看下来其实和我之前写的一篇有关RAG检测文章的思想很像，整体和局部都是需要的。（心法利器[109] | RAG效果评估经验）

整个对话流程的拆解如图所示。（这个图不仅对Agent评估有参考意义，对Agent设计也有意义）

picture.image

被评智能体采用模块化多智能体设计：主智能体分解任务→协调子智能体→整合最终结果，堆场上下文、复杂并行任务会比较擅长。这里的关键难题是，要构造一个沙箱完全模拟业务生态，包括数据库、用户模拟器、API、监控日志等（说实话要做到这个程度难度真不低）。思路上，这个框架不仅考虑端到端任务的解决，还要细究过程，考量成本、效率、安全、上下游工单的集成。

文章结论

文章基于真实业务需求，提出了以多阶段训练与多智能体架构为核心的技术方案，并深入剖析其独特优势及对智能交互未来发展的潜在影响。

在这里，文章提出的核心挑战是必须具备高度拟人交互能力、准确理解用户问询并严格遵循动态业务规则，同时保持可适应性、优化效果并以低成本扩大覆盖。

..., they must exhibit highly human-like interactive abilities, accurately comprehend user inquiries, and strictly adhere to dynamic business rules, all while maintaining adaptability, optimizing effectiveness, and expanding coverage at low cost.

而为了应对这个挑战，文章提出了一整套方案，构造并精炼高质量数据、多阶段训练范式、引入健壮的多智能体架构。有如下优点。

自动化持续增强模型在业务领域的能力。
具备主动且可操作的服务模式，高效扩展服务范围。
在解决真实用户问题时具备灵活性、可扩展性与有效性。

而作者也提出了未来的方向，确实都非常有实际价值。

利用智能体RL自主发现、构建与调用多样工具，实现智能调度、个性化推荐等端到端任务执行。即从人工构造智能体升级为自主发现构造工具。
多模态和多智能体融合。
个性化。除了感知业务规则。还需要感知用户画像并定制个性化方案。有关对话个性化的问题，我曾经写过几篇文章。

小结

论文从第三章开始，节奏就骤然加快，比预期短太多了，更多是介绍这里的设计思路，具体的细节操作并没有说很多。不过从技术设计的角度，这些大体的框架，对自己的宏观能力提升，还是非常有价值的，我自己感受的提升还是挺明显的，希望这篇文章的分享对大家也有收获吧。

picture.image