大模型训练新思路：GEPA 靠 “反思” 赢过 RL，看完秒懂 - 文章 - 开发者社区

倘若一种人工智能模型能够从自身的错误中吸取教训 ，不是通过机械的反复训练，而是通过深思熟虑的反思 ，就像人类那样，那将会是怎样的情景呢？

这就是“GEPA（基因-帕累托）”所承诺的效果，这一开创性的方法由来自加州大学伯克利分校、斯坦福大学和 Databricks 的研究人员提出。GEPA 使大型语言模型（LLMs）能够优化自身的提示，与传统的强化学习（RL）和其他优化技术相比，在复杂推理任务中的效率提高了多达 35 倍 。本博客将探讨 GEPA 的工作原理、为何它能超越现有方法、其在现实世界中的应用以及它对人工智能未来的影响。

让我们来详细了解一下其运作原理以及其重要性所在。

The Problem: Reinforcement Learning is Powerful, But Costly

大型语言模型正越来越多地应用于复杂任务中，例如多步问答、涉及隐私保护的工作流程以及代码生成等。要使这些模型可靠地运行是一项重大挑战。标准方法——强化学习（RL），特别是群体相对策略优化（GRPO），效果显著，但计算成本高昂。每次“rollout”（包含反馈的完整系统运行）都需要大量资源，而许多应用无法承受实现收敛所需的数千次rollout。

GEPA 提供了一种解决方案，通过让大型语言模型在较少的迭代中就能更有效地学习，同时利用模型自身的输出来优化其性能。

Introducing GEPA: A Smarter Way to Optimize

picture.image

在这里插入图片描述

GEPA 重新定义了语言模型的优化方式。它不再依赖像准确率分数这样的标量奖励 ，而是利用语言模型生成的自然语言痕迹 ，例如推理步骤、工具调用和错误消息，来改进提示 。通过分析这些痕迹，GEPA 能够确定一个提示成功或失败的原因，并对其进行修改以提高性能 。这种基于语言的反思式方法使 GEPA 比传统方法更快、更高效、更具适应性。

GEPA 基于语言的反思式方法。通过分析语言模型生成的自然语言痕迹，例如推理步骤、工具调用和错误消息，来确定一个提示成功或失败的原因，并对其进行修改以提高性能。
不基于reward分，简单有效。

GEPA 不只是学习哪些方法有效，还会探究其有效（或无效）的原因，并将这一见解重新融入到提示中。

How GEPA Works: The Three Pillars

GEPA 的优化流程由三个核心要素构成：

1. Reflective Prompt Mutation

GEPA 利用其自身的语言模型来分析执行过程中的记录 ，并 以自然语言的形式提出对提示内容的改进建议 。例如，如果一个数学问题的提示导致了错误的解答，GEPA 可能会指出指令不够清晰的问题，并建议使用更具体的形式，比如在提示中添加“验证每一步”这样的内容。

1. Pareto-Based Sampling

为了保持优化过程的 多样性 ，GEPA 采用帕累托前沿来追踪一组表现优异的 prompt strategies。这确保了模型会探索多种有效的方法，而非最终收敛于一个可能并非最优的单一解决方案。

1. System-Aware Merging

GEPA 能够将来自不同模块的提示的最佳元素整合到一个复合的人工智能系统中，从而生成一个统一且性能卓越的提示，该 提示融合 了来自多个候选者的见解。

The GEPA Workflow

picture.image

在这里插入图片描述

以下是 GEPA 在实际操作中的运作方式：

1. Start with an initial prompt, such as “Solve this equation.”
1. Run the AI system (a rollout) and collect traces, including inputs, outputs, reasoning steps, and errors.
1. Use the LLM to reflect on the traces and propose an improved prompt, such as “Solve the equation step-by-step and verify the solution.”
1. Add the new prompt to a pool and evaluate its performance across tasks.
1. Use Pareto sampling to select promising prompts for further refinement.
1. Repeat until the rollout budget is exhausted, typically requiring only hundreds of rollouts compared to RL’s tens of thousands.

picture.image

在这里插入图片描述

这一过程使得 GEPA 能够快速且高效地优化提示内容，生成更简短、更智能的提示，并且这些提示在应用于新任务时具有良好的通用性。

Benchmark Results: GEPA’s Superior Performance

picture.image

在这里插入图片描述

GEPA 在四项具有挑战性的任务中进行了严格测试，结果表明其性能优于传统基准、GRPO 和 MIPROv2（一种贝叶斯优化器）。这些任务包括：

• HotpotQA (Multi-hop Question Answering): GEPA achieved a score of 62.3, compared to 55.3 for MIPROv2, 43.3 for GRPO, and 42.3 for the baseline.
• HoVer (Complex Fact Verification): GEPA scored 52.3, outperforming MIPROv2 (47.3), GRPO (38.6), and the baseline (35.3).
• IFBench (Instruction Following with Constraints): GEPA reached 38.6, slightly ahead of MIPROv2 (36.2), GRPO (35.8), and the baseline (36.9).
• PUPA (Privacy-Preserving Delegation): GEPA scored 91.8, significantly higher than MIPROv2 (81.6), GRPO (86.7), and the baseline (80.8).

在开源（Qwen3 8B）和专有（GPT-4.1 Mini）模型上进行测试的结果令人瞩目。

picture.image

在这里插入图片描述

GEPA 达到这些成果所使用的部署次数比基于强化学习的方法少多达 35 倍，这凸显了其高效性和有效性。

Why GEPA Excels

GEPA 的成功可归因于几个关键优势：

1. Language-Based Learning

通过利用自然语言反馈，GEPA 利用了大型语言模型在理解和生成文本方面的强大能力，从而使优化过程变得更加直观和高效。 2. 2. Efficient Rollout Usage

GEPA 只需进行数百次 rollouts，而 RL 则需要数万次，这极大地降低了计算成本。 3. 3. Shorter, Smarter Prompts

GEPA 的提示信息长度仅为类似 MIPROv2 等方法的 1/9.2 倍，这不仅降低了令牌成本和延迟，还能在保持或提升性能的同时实现这一效果。 4. 4. Strong Generalization

GEPA 的提示更具通用性，能够更好地适用于未见过的数据，尤其是在具有严格限制条件的任务中，比如 IFBench 任务，该任务对指令的严格遵循性要求极高。

Real-World Applications: Beyond NLP

虽然 GEPA 在自然语言处理方面表现出色，但其应用远不止于此。一个显著的应用案例是针对低级硬件（如神经处理单元（NPUs）和 CUDA）的代码优化。GEPA 通过分析编译器错误和性能分析结果，来优化引导大型语言模型（LLM）编写更高效 kernels 的提示。在早期实验中，GEPA 将 kernel vector 利用率从 4% 提高到了超过 30%，增幅达七倍之多，且无需重新训练或检索增强生成（RAG）。其他潜在的应用包括：

• Scientific Research: GEPA 能够优化分析复杂数据集（如在物理学或生物学领域）的提示方式，从而减少对大量标注数据的需求。
• Education: 通过生成个性化的提示，GEPA 能够提升基于人工智能的辅导系统，使解释能够适应每个学生的具体需求。
• Business: GEPA 能够通过优化从非结构化数据中提取见解的提示信息，来简化诸如市场分析或客户支持等任务。

A New Paradigm for AI Learning

GEPA 代表了一种与传统人工智能优化方法不同的转变。它不再依赖数值奖励或权重更新，而是利用自然语言的反思来推动改进。这种方法类似于人类的学习过程，即对过往表现的反思会带来更优的策略 。这种范式转变的关键方面包括：

• 从高强度训练转向 sample-efficient 优化
• 用文字反馈取代数值奖励
• 专注于提示的演变而非模型的重新训练

这种反思性的方法不仅提高了效率，而且也与大型语言模型的天然优势相契合，使得 GEPA 成为了构建更智能的人工智能系统的强大工具。

Future Directions

GEPA 为进一步的研究开辟了充满活力的广阔空间：

1. Few-Shot Example Tuning

将 GEPA 的反思性提示与优化后的 few-shot 示例相结合，能够在数据稀缺的情况下进一步提升性能。 2. 2. Hybrid Methods

将 GEPA 与 RL 结合使用，以实现权重和提示的联合优化，能够将这两种方法的优势结合起来。 3. 3. Smarter Validation

在部署过程中动态选择要评估的示例数量，能够进一步降低计算成本。 4. 4. Multimodal Integration

将 GEPA 扩展至能够处理文本、图像和数据表格的多模态模型，可能会使其在诸如医学成像或自动驾驶等领域的应用范围得以扩大。

Challenges and Ethical Considerations

虽然 GEPA 是一项重大进步，但它也面临着一些挑战：

• 训练数据中的偏差：GEPA 依赖小型数据集进行学习，如果这些数据不具有代表性，就可能加剧偏差。确保训练样本的多样性至关重要。
• 透明度：这个反馈过程对于用户而言可能不够清晰，导致他们难以理解为何会选择某些提示。提高可解释性将是至关重要的。
• 过度依赖自动化：随着 GEPA 技术使得自动化优化变得更加可行，存在过度依赖人工智能的风险，因此需要有人工监督来确保其合理使用。

参考文献

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你，也是我们持续创作的最大动力！

E2 TTS：令人尴尬地简单、完全非自回归、零样本的语音合成技术

Voicebox：大规模文本引导的多语言通用语音生成技术

为什么都在聊 Kimi K2？Open Agentic Intelligence 藏着哪些新惊喜

Step-Audio-AQAA 端到端音频模型

DPO、PPO、GRPO的原理，区别与联系

OPENCSG 中文语料库：一系列高质量的中文数据集，用于语言模型训练

不要对 2+3=？想太多：关于类 o1 大语言模型的过度思考

什么是 Classifier-Free Guidance？

Conditional Flow Matching : 连续标准流 Continuous Normalizing Flow

CFM 与 OT-CFM：条件流匹配与最优传输的碰撞

DPO损失实现

Conditional Flow Matching : 常微分方程ODE、欧拉方法和Neural ODE

当 Normalizing flow 遇上语音生成：AI 说话变 “真人” 的秘密在这里！

深度剖析：Kimi - Audio 中 BigVGAN 的神奇作用

为什么说分布变换是 Normalizing flow 的「灵魂操作」？

MATCHA-TTS 来了！条件流匹配让文本转语音效率飙升

从知识增长的角度提升RAG上下文的质量

MiniMax-Speech，零样本语音合成新突破，32 种语言轻松拿捏！

手把手教你创建 evol-instruct 数据集！附完整流程~

社交类聊天的 Query 分析与应答策略

SFT 中指令选择和响应选择哪个更重要？

角色扮演大模型技术分享2-超拟人模型的困境

最新！SpeechLLM 综述：架构、能力、挑战与未来全揭秘

如何低成本生成高质量指令微调数据？

从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优

Kimi-Audio：开源音频基础模型全面解析

Kimi-Audio 的 TTS 效果如何？

Qwen 的训练数据是怎么做的？

GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比

基础模型中的新范式：为什么o1是不同的，以及它将如何改变LLM应用

Semantic token和连续特征在SLLM下的对比

从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优

RLHF及其变体：进展和实际工程见解

胖东来与京东联手了

Freeze-Omni: 低延迟语音对话模型

Fully Sharded Data Parallelism (FSDP)

什么是置信度？置信度模型怎么做？

晦涩难懂的 Flow matching！图形化理解

中文指令微调数据，质量就是一切！

基于 LLM 的文本泛化

CosyVoice 2：基于大型语言模型的可扩展流式语音合成技术

Mini-Omni2: with Vision, Speech and Duplex Capabilities

FSQ的原理与VQ-VAE的区别和联系

大模型并行训练的一些知识——极简版

亲测有效！如何用 Address Sanitizer 精准定位内存漏洞？附保姆级操作指南

要用 AI 裁员 50% 的千亿独角兽，公开认错，重启招聘！

一些文档去重算法

single codebook和dual codebook在LLM中向量量化上有什么区别？

亲测有效！如何用 Address Sanitizer 精准定位内存漏洞？附保姆级操作指南

CosyVoice：一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器

Model Context Protocol (MCP)

MCP（模型上下文协议）是什么以及它是如何运作的

压力测试LLMs——大海捞针实现

picture.image

近日还在想要不要建个群呢？感觉自己是个i人，又懒，打理不来呀。但这个想法不自主的就冒出来了，还是要思考下。天人交战良久，得，一位朋友私我要入群，那就建一个吧，感谢。

欢迎入群，希望能有一个交流的地方。但群主是个i人，没事儿让他想静静，有事儿圈他。

群主不是万能的，不是万能的，不是能的，能的。