R1思考+RAG = R1-Searcher，开源~ - 文章 - 开发者社区

论文笔记，标题：R1-Searcher: Incentivizing the Search Capability in LLMsvia Reinforcement Learning，代码开源，https://github.com/SsmallSong/R1-Searcher

整体内容很不错的一篇文章，可以回答很多常见问题。

比如：

字符串的答案怎么去设计规则奖励？
强化学习怎么数据怎么构造，怎么分步去设计？
grpo还是别的算法？
sft还是rl？

首先这个工作本身是希望，把模型思考+RAG通过强化学习结合到一起，让答案更准确。基础模型使用的qwen & llama。

所以设计这样的一个system prompt

picture.image

简单来说就是，希望模型输出这样的格式，通过输出特殊token，触发搜索，然后再把检索到的内容拼接进去，继续生成。当然这个过程可以进行多次。


        
        
            

          <think>
          
   

 
          
   

 
          xxx
          
   

 
          xxx
          
   

 
          
   

 
          <begin\_of\_query>检索查询关键词<end\_of\_query>
          
   

 
          <begin\_of\_documents>检索到的文档内容<end\_of\_documents>
          
   

 
          
   

 
          xxxx
          
   

 
          
   

 
          </think>
          
   

 
          <answer>最终答案</answer>