强化学习用于RAG 检索增强推理
六小虎-百川 开源 ReSearch,一个 RL 框架,从零开始教 LLMs 使用搜索进行推理。
简单概括,ReSearch框架,它不是教AI怎么思考或怎么搜索,而是让AI自己学会何时该搜索、搜什么、如何利用搜索结果继续推理。
naive RAG -> agentic RAG
整体没有太大新的地方,先思考问题 -> 决定需要查询什么 -> 获取搜索结果 -> 基于搜索结果继续思考或调整查询方向
reward 规则如下,训练数据使用musique,一个为多跳问答设计的19938个样本。 grpo训练。
所以,就这? 嗯, 就这。 好像有点赶不上以前分享的一些类似工作。