关注我们,一起学习
题目:TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge
地址:https://arxiv.org/pdf/2503.04381
代码:https://github.com/d223302/TRACT
学校,公司:台大、谷歌
这篇论文聚焦LLM-as-a-judge的数值评分优化,核心是解决现有方法在评分预测中存在的推理缺失与数值预测偏差问题。
一、背景
- 传统基于交叉熵(CE)损失的微调忽略评分的数值属性,导致数值预测误差不合理(无法考虑数值的大小关系)。
- 回归感知微调(RAFT)虽优化数值预测,但未融入思维链(CoT)推理,影响评分的可解释性与准确性。
- 训练时使用的外部标注CoT(如GPT-4生成)与模型推理时自生成CoT存在分布偏移,降低泛化能力。
局限性:RAFT这类方法通常适合预估小数值的场景,因为需要对预估数值的token做加权聚合,比如预估分数在0-5,那么求的是数据在0-5上的分布然后计算期望作为预估值(即0-5的token的加权求和),对于大于9的数值可能大模型本身不具备单独的token了,比如‘10’需要表示为‘1’-‘0’,那么处理起来就会更加复杂,比较简答的做法是将标签转换到数值token范围内。
二、方法:TRACT
TRACT(Two-stage Regression-Aware fine-tuning with CoT)是融合CoT推理与回归感知训练的两阶段微调框架
1. 输入设计
- 输入
:包含评测指令、评分标准和待评样本。
- CoT推理
:对样本的分析过程,结尾固定包含标识字符串“ So the overall score is ”,明确推理与评分的分界。
- 目标评分
:取值为1-5的整数,需同时保证推理的逻辑性与评分的数值准确性。
2. CoT-RAFT训练目标
- 核心思想:联合优化“CoT推理生成”与“数值评分预测”,避免单一损失的局限性。
- 损失函数公式:
其中:
- 第一项(RAFT损失):基于CoT-RAIL预测器的平方误差,优化数值评分的精准度,
为权重系数。
- 第二项(CE损失):对CoT推理文本与目标评分的拼接序列计算交叉熵,保证CoT生成的逻辑性与完整性。
- :训练阶段的CoT采样自目标模型
(阶段1为GPT-4,阶段2为阶段1训练后的模型
)。
3. CoT-RAIL推理
- 推理流程:
- 给定输入
,模型自生成CoT推理
。 2. 基于输入
和生成的
,计算所有可能评分的期望值作为最终结果:
- 优势:相比传统“取分布模式值”的解码方式,更贴合数值评分的回归特性,降低预测误差。
4. 两阶段微调流程
- 阶段1:训练CoT生成模型
- 初始化:以种子LLM(如Mistral-7B)为基础模型
。 2. 训练数据:使用外部标注CoT数据集
(CoT来自GPT-4,含
三元组)。 3. 训练目标:采用CoT-RAFT损失,同时优化CoT生成与评分预测,得到模型
。
- 阶段2:训练最终模型
- 构建自训练数据集
:用
对原始训练集
的每个输入
生成CoT(记为
),丢弃
的评分预测,保留生成的CoT与原始ground truth评分
,形成新三元组
。 2. 重新微调:以种子LLM
为初始化(而非
),用
和CoT-RAFT损失微调,得到最终模型
。 3. 文中指出如果直接用标注模型(如GPT等)的CoT和原始模型的CoT的分布存在偏移,使用微调后的模型自生成的CoT进一步微调可以缓解这个问题;不过疑惑的是用存在分布偏移的CoT微调基础模型没问题吗?:)
三、实验结果
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
字节 | OneTrans:统一特征交互与序列建模的 Transformer 模型
When More is Less:探索LLM中CoT长度的影响
图片
长按关注,更多精彩
图片
点个在看你最好看
