ICLR 2026 Oral｜火山引擎多媒体实验室提出RALI，探索画质理解大模型泛化性，节约96%开销助力实时部署 - 文章 - 开发者社区

在多模态大模型（MLLM）席卷底层视觉的今天，基于强化学习（RL）的 IQA 模型虽然性能强悍，却受困于高昂的落地成本。本文中，研究者们不仅回答了“为什么 RL 能提升 IQA 泛化性”这一核心理论问题，更提出了一种全新的轻量化范式 RALI，在应用时可移除思考过程，并保留了思考带来的泛化红利，助力实时场景的使用。

图像质量评价（Image Quality Assessment, IQA）作为计算机视觉的基础任务，既是监控视频平台用户体验的“守门员”，也是生成式模型（如文生图、文生视频）RLHF 训练中的核心奖励信号。

近期，随着多模态大语言模型（MLLM）的发展，Q-Insight 等引入视觉强化学习（Visual RL）的方法在 IQA 任务上展现出了卓越的泛化能力。然而，这种性能的提升伴随着巨大的代价：高昂的显存占用和缓慢的思考推理速度，极大地限制了其在端侧设备及实时系统中的应用。

《REASONING AS REPRESENTATION: RETHINKING VISUAL REINFORCEMENT LEARNING IN IMAGE QUALITY ASSESSMENT》 对上述问题进行了深入思考和研究，被录用至ICLR 2026 作为口头汇报文章（Oral）。

字节跳动、北京大学以及香港中文大学的研究人员首先揭示了 RL 提升 IQA 泛化性的本质机制——推理即表征（Reasoning as Representation） ，即通过 Reasoning将冗余的视觉信息压缩为紧凑、跨域对齐的文本表示。基于此发现，作者提出了 RALI（Reasoning-Aligned Lightweight IQA） 框架。该框架利用对比学习将图像直接对齐到这种高泛化性的文本空间，在预测的时候可以完全移除 LLM 和推理，仅用 4% 的参数量便实现了与 7B多模态大模型相当的性能。

picture.image

图 1：RALI 与主流 IQA 方法在 PLCC/SRCC 及参数量上的对比。RALI 以仅约 Q-Insight 4% 的参数量实现了可比的精度。

为什么 Visual RL 能在 IQA 中带来泛化性？

论文先以Q-Insight（经过 Visual RL后的 MLLM）为例，在Visual RL后，IQA 的泛化性与推理（Reasoning）有何关系？推理过程在预测阶段是否是必须的？

推理文本：打分的核心注意力

通过分析 Q-Insight预测分数的attention分布，相较于DeQA这类SFT模型，研究者发现模型在评分时的依赖路径发生了根本性转移。如下图所示，在生成分数 Token 时，模型 95% 的注意力权重集中在之前生成的“推理文本”Token上，而非视觉 Token 。这意味着，RL 实际上促使 MLLM 习得了一种降维策略 ：将包含 1000 多个 Token 的高维视觉表示，压缩为仅约 100 个 Token 的质量描述文本（Reasoning）表示，并且通过这种低维表示进行画质打分。

picture.image

图 2：Q-Insight 生成分数时的 Attention Heatmap，95% 的注意力集中在推理文本上。

文本：跨域对齐的桥梁

picture.image

图 3：文本Token拉近了不同数据集之间的Domain Gap

更重要的是，这种文本表示具有天然的跨域对齐（Cross-domain Alignment） 属性。在 KonIQ 和 SPAQ 等不同分布的数据集上，经过视觉塔编码后，原始视觉特征存在显著的域差异（Domain Gap），然而在LLM推理后得到的“文本空间”中，这种差异被极大地消除了。

因此，论文得出一个关键结论**：IQA 模型的泛化能力很可能源于将视觉信息压缩为对齐的文本表征。**

RALI：无需推理的轻量化框架

既然“推理文本”是泛化的核心，且仅仅是一种中间表示，那么我们是否可以跳过繁琐的 LLM 推理，直接从图像映射到这种表示空间？

基于此思路，作者提出了 RALI（Reasoning-Aligned Lightweight IQA） 框架。该框架包含三个关键步骤：

picture.image

图 4：RALI 框架示意图。包含 (b) 对比对齐、(c) 特征压缩和 (d) 分数定义三个阶段。

对比对齐（Contrastive Alignment）： 利用 RL 训练好的大模型（如 Q-Insight）生成高质量的图文对（Image-Text-Score triplets），通过对比学习微调 CLIP 的视觉编码器，使其输出特征与“质量推理文本”空间对齐。这一步实现了将推理能力“蒸馏”到视觉编码器中。
特征压缩（Feature Compression）： 虽然 CLIP 特征维度较高（768维），但包含噪声。作者引入 PCA 降维（至 512 维）和 分桶 K-means（Bucketed K-means） 聚类策略，构建了一个紧凑的离散化特征空间。这不仅过滤了与画质无关的信息，还确保了特征在分数空间上的均匀分布。
分数定义（Scoring Definition）： 最后，模型通过计算图像特征与一组可学习的基向量（Basis Vectors）的相似度来加权预测分数。在推理阶段，这仅涉及简单的点积运算。

RACT：跨域训练的新范式

除了轻量化，论文还探讨了如何解决 IQA 领域棘手的多数据集混合训练问题。由于不同数据集的标注者主观偏好以及方式不同（Annotator Bias），直接强化学习混合训练往往导致模型难以收敛。

基于“推理即表征”的发现，作者提出了 RACT（Reasoning-Aligned Cross-domain Training）：

首先在各单数据集上进行 RL 训练，获得各自的推理能力。
利用推理模块将所有图像转化为客观的质量描述文本 ，形成统一的跨域标签。
使用对齐后的图文对进行跨域 SFT 训练，仅使用单数据集的分数进行监督，避免了主观评分偏差的干扰。

picture.image

图 5：RACT训练框架，包含(a)单数据集强化学习，(b)跨域标签对齐，(c)跨域SFT训练。

实验结果：速度与精度的双重突破

实验结果表明，RALI 在保持极低资源消耗的同时，达到了 SOTA 级别的性能。

精度对比

在 KonIQ、SPAQ 等多个主流数据集上，RALI 的性能（PLCC/SRCC）不仅显著优于 CLIP-IQA+、MUSIQ 等非 MLLM 方法，甚至能够与 Q-Insight、Q-Align 等 7B 参数量的 MLLM 方法媲美。

picture.image

表 1：单域训练设置下的性能对比。RALI 表现出与 Sota MLLM 模型相当的性能。

效率对比

效率是 RALI 的最大亮点。测试显示，RALI 的推理速度相比 Q-Insight 提升了 95% 以上，显存占用降低了 85% 以上。当 Batch Size 为 16 时，RALI 仅需 Q-Insight 3.4% 的推理时间和 14.7% 的显存。

picture.image

图 6：RALI 与 Q-Insight 的推理开销对比。

跨域泛化

在跨域测试中，基于 RACT 训练的模型在 CSIQ、LiveW 等未见数据集上取得了最佳的泛化性能，证明了通过文本表示对齐域分布的有效性。

picture.image

表 2：跨域训练设置下的性能对比。RACT 表现出Sota泛化性能。

结语

该研究不仅在实现上提供了一个高效、可落地的 IQA 解决方案，更在理论层面深刻阐释了多模态大模型在低层视觉任务中泛化能力的来源。“推理即表示” 这一观点，指出了复杂的推理（Reasoning）在感知任务中本质上是一种高效的信息压缩与特征对齐机制。RALI 证明了我们完全可以在不牺牲性能的前提下，在推理的时候摆脱对重型 LLM 的依赖，这为未来的端侧画质增强与实时评价以及在线强化学习奖励函数设计开辟了新的道路。

相关链接

📄RALI: https://arxiv.org/abs/2510.11369

团队介绍

多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。