提纲
1 简介
2 TPO
3 实验
4 实验结论
5 讨论
参考文献
1. 简介
如何让大模型快速适应人类偏好一直是关键挑战,传统方法如 RLHF,DPO需要提前训练去优化模型参数,不仅需要大量标注资源跟训练资源,耗时耗力,而且
模型参数一旦固定,难以在推理阶段动态适应新的偏好需求。
于是有研究人员设计了一种轻量级解决方案TPO(
Test-Time Preference Optimization),通过推理阶段不断迭代文本反馈来实现模型输出与人类偏好的实时对齐。该方案不需要提前训练,只在推理阶段生效,即插即用,可以动态对齐人类偏好。
2. TPO
TPO 的核心思想是将数值奖励信号转化为可解释的文本反馈,引导模型在推理时迭代优化输出。换言之,TPO就是将以前的RLHF中流程中的损失跟梯度等数值形式转化为人类肉眼可见的文本反馈,其流程可概括为以下四步:
-
候选response生成
给定用户查询,模型首先生成多个候选响应(如 5 个不同版本的回答),并通过奖励模型(RM)为每个响应打分。将其中得分最高的response定义为chosen,得分最低的response定义为rejected。
-
文本损失计算:从评分到可操作反馈
通过预先设计好的prompt,将query,chosen,rejected拼接到一起作为大模型的输入,让大模型进行点评,指出chosen跟rejected的优缺点,作为文本损失。例如 文本损失可能指出:“最差响应缺乏具体方法,应补充步骤细节”。这种反馈比单纯的数值评分更具指导性。
You are a language model tasked with evaluating a chosen response by comparing with a rejected response to a
user query. Analyze the strengths and weaknesses of each response, step by step, and explain why one is chosen or
rejected.
**User Query**:
{query}
**Rejected Response**:
{rejected response}
**Do NOT generate a response to the query. Be concise.** Below is the chosen response.
{chosen response}
-
文本梯度计算
通过另一个prompt,让大模型根据文本损失生成文本形式的文本梯度(Textual Gradient),即具体的改进建议,通过这些改进建议可以更好的对齐用户偏好。
4 更新回答
将上述建议融入输入到pormpt中,模型生成更优的response。
上述过程可迭代多次,直至响应满足偏好要求或者到达指定轮次。每次迭代,模型的response都会被打磨得更符合人类偏好。对比下我们以往的模型训练过程,TPO也严格遵循“计算损失->计算梯度->更新参数”的流程,只是将原本的数值信号都用文本替代了。
3.实验
在答案生成模型上,同时考虑了没有经过偏好对齐训练的
Llama-3.1-70B-SFT跟经过偏好对齐训练的 Llama-3.1-70B-Instruct作为基底模型,在此基础上比对TPO或者SFT所带来的差异。在rewrad模型上也尝试了两种不同的模型。
最终在多个相关的数据集上进行评测,包括
指令遵循,常规偏好对齐,安全性跟数学相关数据集。
4.实验结论
1. 随着迭代轮次的增加,无论基底模型是否经过对齐训练,TPO的性能都显著提升。并且在迭代轮次超过2个后,TPO的效果已经超过了经过偏好对齐训练的模型。
2. 在对推理稳定性的评测中发现,TPO还会显著提升模型的推理稳定性。这就意味着它有很巨大的应用潜力。
3. 随着迭代轮次的增加,或者每次候选response数量的增加,TPO的性能也随着提升。所以在实际使用中需要考虑TPO深度跟宽度之间的平衡。
增加宽度(从 5 到 20 个响应)可提升初始评分,但深度迭代(2-3 次)对长期优化更关键。
5.讨论
TPO 是一种
推理阶段优化的新范式,它将大模型偏好对齐从 “训练阶段主导” 切换为“推理阶段灵活调整” ,其核心价值在于:
-
无需重训,即插即用
-
基于现有模型参数,通过文本反馈实现低成本优化;
-
文本损失和梯度提供透明的优化路径,便于人类理解与干预;
-
适用于各类 LLM,无论是否经过预对齐训练。
对大模型response进行refine的方案很早之前就有了,虽然在实践中有所提升,相比TPO,那些方案都缺乏一些显式的修改建议,推理的稳定性得不到保障,解释性跟可控性相对缺乏。
TPO的弊端也是显而易见,主要就是推理成本,TPO的宽度跟深度,意味着它的推理成本会是普通模型的数倍甚至数十倍,所以在很多对实时响应要求严格的场景上很难实现落地。另外还有一个问题,reward模型给reseponse打分,后面却是有生成模型来给出修改建议,这个逻辑只是为了跟RLHF保持一致,还是有别的顾虑?
参考文献
1 Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback