ScaleMCP: 结合RAG技术增强MCP工具管理能力

发布时间：2025年05月09日

MCP

picture.image

如遇无法添加，请+ vx: iamxxn886

添加请注明MCP

为什么要提出ScaleMCP

随着大型语言模型（LLMs）与工具学习技术的突飞猛进，智能体已能动态对接各类外部工具与API。

1.1 MCP协议的诞生

模型上下文协议（MCP）的诞生，为LLM与外部工具、数据源及提示词建立了标准化桥梁。MCP是由Anthropic推出的一项开放协议，为大型语言模型（LLM）与外部工具、数据及提示的交互提供标准化框架。

开发者可借助MCP服务器开放工具与数据接口，或开发连接这些服务的AI应用（MCP客户端），大幅降低AI系统获取外部资源的复杂度。

MCP也存在潜在的安全隐患，包括恶意代码注入、越权访问、凭证泄露及鉴权缺陷等。当前协议暂不支持无服务器架构，因其依赖客户端-服务器的有状态通信，但实时推送与采样功能颇具优势。

MCP已成为LLM智能体工具链的事实标准，OpenAI、Google等模型巨头与Cursor、Cline等AI平台均已全面接入。

1.2 LLM调用工具

大型语言模型天然存在工具调用数量的硬性约束。过多的工具组合的复杂调用逻辑会削弱模型的决策能力 ，而OpenAI等厂商的API限制（单次最多128个工具）更是雪上加霜。

为此，有研究创新性地采用了无需Finetune的RAG方案，通过向量数据库动态加载所需工具。更智能的代理式RAG则赋予LLM自主搜索能力，彻底颠覆了传统静态检索模式。

早期GPT模型对这种动态检索的适配性欠佳。直接使用厂商预置嵌入（如OpenAI）效果有限，需针对性优化检索器。当前工具检索技术百花齐放，既有经典关键词匹配，也有新兴的向量图谱融合方案。

当前主流LLM工具调用机制包括：

MOLoRA架构
高效树状方法
多智能体协同构建的工具-指令数据集

1.3 现有LLM调用工具的局限

尽管现有研究在工具选择与LLM调用方面取得进展，仍存在三大瓶颈：

其一，现行框架尚未将MCP纳入工具选择体系；
其二，当前方案依赖人工维护单一工具库，通过手动更新保持工具定义与存储系统的同步，这种模式不仅容易出错，还存在代码冗余；
其三，现有方法将工具选择与LLM调用流程割裂，既制约了智能体的自主性，也无法支持多轮对话中的动态工具检索。

普华永道提出ScaleMCP创新方案，通过自动同步的MCP工具存储系统，实现智能体在多轮交互中动态发现并装备工具。该系统以MCP服务器为唯一信源，采用CRUD机制自动同步更新。

什么是ScaleMCP？

2.1 ScaleMCP架构

ScaleMCP：一种面向MCP服务器（工具）的LLM智能体工具选择创新方案，其核心包含自动同步的工具存储索引系统，以及赋予智能体自主调用权限的现代RAG架构。

picture.image

ScaleMCP自动索引Pipeline与LLM智能体调用机制。自动同步工具索引管道会读取当前作为唯一事实来源（single source of truth）的MCP服务器工具，将其哈希值与MCP存储系统的哈希值进行比对，并对存储索引执行增删改查（CRUD）操作。

在LLM智能体调用流程中，当用户提出问题后，LLM智能体会并行调用5次"MCP检索工具"（每次针对一个目标检索工具），将相关的MCP服务器（工具）整合至上下文环境。在检索到相关MCP后，LLM智能体决定并行调用5个MCP服务器，各MCP服务器将返回工具响应。最终，LLM智能体通过对MCP服务器响应的推理分析，向用户返回成功的最终答案。

借助LLM原生函数调用能力，ScaleMCP使智能体能够自如调度数千个MCP服务器，其底层工具库会实时自动同步可用服务资源，实现工具生态的智能自治。

2.2 ScaleMCP自动同步索引Pipeline

工具存储方案可灵活适配不同应用场景：

向量数据库与向量检索最为常见
图数据库
混合图RAG方案
传统词条匹配

例如，独立部署的MCP服务器适合采用可弹性扩展的向量数据库；存在拓扑关联的MCP集群则可通过图数据库维护依赖关系。

ScaleMCP通过智能同步管道实现动态索引更新，以MCP服务器为权威数据源，自动感知工具库的增删改操作。

picture.image

系统会全量获取MCP工具特征，基于名称、描述、参数生成SHA-256哈希指纹。通过比对新旧哈希值实现增量更新：匹配则保持现状，失配则采用存储适配器（如向量嵌入函数、图结构构建器或词条索引器）完成数据迁移，其中向量嵌入可选TDWA算法。

2.3 ScaleMCP大模型调用方案

为实现大模型调用时的弹性工具选择，为智能体配备了专属MCP检索工具，使其通过关键词精准定位目标服务器。

picture.image 、

如上图所示（案例中该工具被调用5次，分别输入5组上市公司净利相关关键词），系统会自动将匹配的MCP服务器加载至模型上下文，并通过函数调用实现所述的工具绑定。

智能体识别新工具后，可并行发起调用获取响应，最终整合多路反馈生成用户答案。

该设计的精妙之处在于：当首次检索未果时，智能体会自主发起重试；还能智能管理多轮对话的工具记忆，动态判断何时需要新增服务器 。MCP服务器的核心价值，在于其标准化的调用协议和丰富的生态连接能力 。

效果评估

3.1 数据集构建

为验证ScaleMCP的性能，构建了包含5000家企业财务指标MCP服务器的大规模真实数据集，并配套了用户查询及预期工具调用的测试实例。该数据集既能逼真模拟智能体与工具的财务指标交互场景，又兼具成本效益与可复现性优势。

3.1.1 工具构建

我们以财富1000强企业为基础，为每家公司定制了五款标准化工具：

实时股价查询
历史股价追踪
分析师目标价获取
营收数据查询
净利润统计

基于开源的yfinance Python库实现这套工具集。该API仅限学术研究使用，不适用于商业场景。所有工具均通过程序化模板自动生成，其名称、描述和参数结构均采用公司名称、股票代码等元数据智能填充。

工具开发全程未使用大语言模型。通过fast-mcp开源框架，部署了5000个符合MCP标准的服务节点。

picture.image

3.1.2 工具文档增强

为优化工具在向量空间的表征效果，采用LLM为每类工具生成0-10个自然语言问句模板。通过替换公司名称、股票代码等变量，在保持语义一致性的前提下，创造出多样化的查询表达。这种文档增强策略有效模拟了真实场景中的用户查询模式，显著提升了密集检索和结果排序的适配性。

3.1.3 用户查询实例生成

除工具文档内置的合成问题外，还专门设计了一套独立用户查询来评估检索效果与智能体推理能力。这些查询虽参照工具模板设计，但更贴近真实用户提问场景，常包含隐含逻辑或多步推理需求。

采用集约化生成策略——每个工具生成约100个基础查询模板，再适配到全部1000家企业，在保证评估集规模与多样性的同时，显著降低了LLM推理成本。最终构建的14万条查询实例，全面覆盖了不同企业、工具及表达方式下的各类财务场景。

3.2 MCP向量数据库检索效果

估了五种嵌入模型（包括OpenAI和Amazon等主流方案）在MCP工具文档检索中的表现。基于5,000台MCP服务器的数据集，采用拼接存储策略测试六种搜索配置：从纯向量搜索到基于GPT-4o的智能重排序。通过调整合成问题数量（0/5/10）并测量K=1/5/10时的核心指标，最终聚焦K=5和三种代表性模型展示关键发现。

picture.image

3.2.1 结果精要

向量检索遇挫：所有模型MAP（Mean Average Precision，平均精度均值）值仅0.5左右，印证多跳查询中单一向量难以兼顾多重工具意图的固有缺陷
重排序破局：Cohere交叉编码器提升显著，GPT-4o+VertexAI组合创下0.94召回率纪录
数据增强有效：嵌入10个合成问题的配置持续提升各方案表现

3.2.2 深度洞察

传统向量检索在多跳场景的"近视"问题凸显——当单个查询涉及3-12个关联工具（如"营收+净利润"）时，单一向量如同管中窥豹。这催生了ScaleMCP框架的创新设计：

智能体赋能：通过分解查询+迭代检索的"分而治之"策略突破瓶颈
效能权衡：LLM重排序虽效果拔群（如Claude方案MAP@10达0.59），但计算成本高昂
未来方向：探索ScaleMCP动态检索能否以"轻量化"实现媲美重排序的精度

3.3 智能体能力评估实验

基于DeepEval框架，对10款大语言模型智能体在工具检索与调用任务中的端到端表现进行全面测评。参测模型包括OpenAI家族的gpt-4.1、gpt-4o、gpt-4o-mini、gpt-o4-mini，以及Anthropic的Claude 3.7 Sonnet。

测试采用三种检索方案：

BM25文本检索基准
TDWA（Tool Document Weighted Average）向量搜索
结合Cohere reranker(v3-english)的向量搜索增强方案

实验固定检索量k=5，通过OpenAI标准函数调用接口传递检索结果。工具索引采用实验一最优配置：TDWA(var-2)方案配合每个工具10个合成问题，嵌入模型选用OpenAI text-embedding-3-large。

picture.image

上表展示了k=5时采用串联策略的智能体表现，其中"向量搜索+Cohere重排"方案使用v3-english版重排器。

picture.image

工具正确率：评估智能体是否精准调用工具、输入参数有效且正确解析输出。

任务完成度：则衡量最终响应是否满足用户需求，通过预期与实际输出的匹配度计算，反映整体解决方案的有效性。

3.3.1 核心结果

picture.image

上表对比了6款代表模型在三种检索模式下的表现：

gpt-o3在增强检索方案下斩获94.4%的任务完成率，虽工具正确率仅36.1%，但展现出色的结果生成能力
gpt-4o-mini以54.0%工具正确率和86.7%任务完成率实现最佳平衡
大模型gpt-4.1/gpt-4o表现稳健，Claude 3.7 Sonnet工具正确率垫底（23.1%）
重排方案使多数模型任务完成率突破80%，但工具正确率普遍在23%-54%区间

3.3.2 深度洞察

当前智能体存在"高分低能"现象：在需要推断12个工具的复杂查询中，gpt-o3虽达成94.4%任务完成率，但工具正确率仅36.1%；而gpt-4o-mini在两项指标上更均衡（54.0%/86.7%）。这表明LLM可不依赖精确工具调用就能生成流畅答案 。

picture.image

上表显示在K=5检索量下各方案表现（SQ=10），其中TDWA方案采用两种权重分配：

var1均衡分配名称/描述/参数/问题权重
var2侧重问题描述

多跳查询场景尤其凸显现有局限——静态检索范式（即便搭配Cohere重排器）制约了智能体的迭代推理能力。当前主流的固定上下文窗口和单次调用机制，缺乏动态修正能力。

ScaleMCP框架创新性地引入检索增强规划循环，支持智能体多轮工具搜索与策略调整。未来将整合Anthropic的"think"等反思模块，通过结合主动搜索与审慎推理，提升高风险场景下复杂工具链的可靠性与透明度。

3.4 TDWA加权效果测评

3.4.1 测评方案

通过固定每个工具生成10个合成问题(SQ=10)，对比三种文档存储策略：

Concat-直接拼接工具组件
TDWA var-I-加权系数[0.2,0.2,0.2,0.4]；
TDWA var-2-加权系数[0.2,0.3,0,0.5]。

权重分配体现各组件在向量嵌入中的影响力：工具名称(20%)、功能描述(20-30%)、参数结构(0-20%)、合成问题(40-50%)。测试采用稠密向量检索、BM25及包含Cohere(v3-english)、GPT-4o和Claude 3.7的重排序流程，全部基于OpenAI text-embedding-3-large生成嵌入向量，评估K=1/5/10时的检索效果。

3.4.2 实验结果

picture.image

上表汇总了K=5时的核心数据（完整结果如下表）。

picture.image

基础向量检索中，Concat策略的NDCG(0.634)和Recall(0.912)表现最优。
但引入重排序后，TDWA var-2在Cohere和Claude模型下展现出竞争力，其重排序后的MAP@5多项指标反超Concat，表明该加权方案能提升大规模候选集的相关性排序质量。
LLM重排序(GPT-4o/Claude 3.7)始终带来最大性能提升，其中Claude+Concat组合斩获最佳NDCG(0.672)和MAP(0.539)，GPT-4o+Concat保持最高Recall(0.912)。

3.4.3 实验洞察

虽然TDWA在原始检索中未超越Concat，但这不否定其价值。

优势可能源于数据集特性：包含股票代码等关键词的工具名称，与用户查询存在天然语义重叠。
评估使用的合成查询与工具内嵌问题采用相同生成方式，可能导致向量空间表征过度拟合。

TDWA的核心优势在于可精细调控各组件语义权重。TDWA var-2通过弱化参数、强化描述与合成问题的设计，在重排序环节表现亮眼，证明结构化加权能与评分模型形成互补增强。这也揭示合成问题对准确率的突出贡献。

存储策略的选择需结合具体场景：Concat适合标准测试环境，而TDWA在复杂实际场景中更具可解释性与适应性。后续将探索基于查询特征动态调整的自适应加权机制，并引入真实用户查询进行验证。

论文原文: https://arxiv.org/abs/2505.06416
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886