R1复现小记：在业务场景的两类NLP任务上有显著效果 - 文章 - 开发者社区


        
        
            

          知乎：https://zhuanlan.zhihu.com/p/32485048223 
          
   

 
          （已授权）

我们在近期业务优化中尝试将强化学习（RL）技术迁移至两类NLP任务，均取得显著效果提升。在不涉密的情况下跟大家分享在实验结论：

任务一：封闭式语义判别（分类场景）

判断文本中特定实体是否属于预定义类别集合（如3C行业品牌识别），以下是一个例子

prompt：

以下出现的华为是否为3C 行业品牌？

输入：刘德华为新剧做宣传。

label：不是

任务特性：

输出空间有限（离散的分类标签）
依赖实体上下文语义表征
基于规则奖励函数设计

任务二：开放式策略生成（主观分析场景）

prompt：以下是青年置业困难的调查数据，

整体： 资金不足40.4%，知识匮乏23.9%，未来不确定性21.7%，政策限制14%。

一线城市： 资金不足44.4%，知识匮乏15.8%，未来不确定性22.7%，政策限制16.9%。

二线城市： 资金不足38.3%，知识匮乏27.9%，未来不确定性21.2%，政策限制12.5%。

请根据上述数据，分析一二线青年置业困难差异及原因，从政府、购房者、家人、夫妻角度提建议。

label：开放回答

任务特性：

偏主观的专业洞察，无标准答案
需构建多维度奖励评估体系

实验细节

实验基于：Qwen2.5-7B

prompt_template与 deepseek-R1论文保持一直，即


        
        
            

          A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process 
          
 in
 
           the mind and 
          
 then
 
           provides the user with the answer. The reasoning process and answer are enclosed within and tags, respectively, i.e., reasoning process here answer here .  
          
   

 
          
   

 
          User: {prompt}  
          
   

 
           
          
   

 
          Assistant:

由于实验资源有限，RL 调参思路总体是：

kl 取比较少，如 1e-4。
在显存允许的情况下，micro_train_batch_size 取尽可能大。
采用 grpo 时，采用尽可能大的n_samples_per_prompts。

任务一：封闭式语义判别（分类场景）

reward model 的设计：由于是封闭集的任务，有真实的 label，设置为格式对且答案正确得1分，其余情况得 0 分。

本研究对比了7个模型在测试集上的性能表现，选用加权F1值作为核心评估指标。此外，为探究模型效果与生成长度的关系，我们统计了生成文本长度的四分位数（25%、50%、75%分位数）。选择四分位数而非平均长度的原因是：部分模型存在训练不稳定的情况，会生成异常冗长的无意义文本，使用平均值容易受这些极端值影响，而四分位数能更稳健地反映典型生成长度。

实验汇总：

picture.image

model4的训练过程：

picture.image

model5的训练过程：

picture.image

结果解读：

对比model1和 model2， 纯强化学习（RL）显著提升模型性能 。
观察 model2 的训练过程，没有出现类似 deepseek-R1-Zero 中 Response length 和 Accuracy 同增的情况，感觉是任务太简单了。
对比 model3、 model4、 model5，可以看到SFT后接 RL 带来小幅但稳定的提升。RL 微调后，生成长度略有增加（75% 分位数上升），但未出现异常增长。
对于 model4和 model5，两种 RL 方法（REINFORCE++ vs. GRPO）效果相近，无明显优劣。
对比 model4、model6和 model7，在特定任务场景下，微调（SFT + RL）比直接使用通用大模型更有效（7B 能打败 32B），且能减少计算开销。

任务二：开放式策略生成（主观分析场景）

reward model 的设计：用偏好数据在Qwen2.5-7B上训练得到奖励模型

测评：采用 deepseek-V3 作为评分模型，对 6 个不同模型生成的最终答案（不含中间推理过程）进行评估，以更贴近实际应用场景中用户关注最终答案的需求，同时避免思维链对评分结果的干扰。

实验汇总：

picture.image

model2的训练过程：

picture.image

model4的训练过程：

picture.image

结果解读：

对比model1和 model2， 纯 RL 训崩了 。score 爆跌，生成长度变长是由于模型开始胡言乱语了。可能由于训练数据不足或训练轮次不够，导致模型产生无意义的长文本输出，也有可能是遭遇 reward hacking 了。
对于 model1，model3 和 model4，可以看到针对场景微调，有很大的提升，SFT微调（model3）使模型得分提升1.94（从3.62到5.56），在SFT基础上增加RL训练（model4）进一步提升0.24分（至5.80），总提升达2.18分，值得注意的是，RL训练后生成长度明显缩短（中位数从1824降至1042），可能表明模型学会了更简洁有效的表达方式。
微调后，比同 size 的DeepSeek-R1-Distill-Qwen-7B要好，但比不上Qwen/QwQ-32B，QWQ-32B真的如传闻中的一样，生成的推理长度好长。

总结

任务一：封闭式语义判别（分类场景）

纯RL效果显著：F1从0.3685提升至0.6211（+68.5%），但未出现推理长度与准确率同步增长现象
SFT+RL稳定优化：在SFT已达0.7815基础上，RL微调带来0.5%的额外提升（至0.7867）
微调优势明显：7B微调模型超越同规模蒸馏模型（+17.9%）和32B通用模型（+17.7%）

任务二：开放式策略生成（主观分析场景）

纯RL训练失败：评分从3.62骤降至1.24，伴随生成长度异常增加
SFT+RL效果突出：总分提升60.2%（至5.80），且输出更简洁（中位数长度减少42.8%）
规模对比：7B微调模型优于同规模蒸馏模型（+25%），但仍落后32B模型（-10.2%）

技术路线对比

训练稳定性：SFT+RL显著优于纯RL，避免奖励破解风险
算法选择：REINFORCE++与GRPO效果相当，后者长度控制略优但计算成本更高
模型规模：7B专用微调模型可超越通用大模型，验证"小模型+精调"的性价比优势

PS：看到这里，如果觉得不错，可以来个点赞、在看、关注。给公众号添加【星标⭐️】不迷路！您的支持是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！