大模型赋能图像压缩 | 缩放定律揭示10B模型可再降30%比特率 - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 当前学习型图像压缩模型在规模上存在局限，限制了其表征能力。
1. 模型规模扩展如何影响压缩性能尚未得到探索。
1. 大规模图像压缩模型是否能够带来显著提升或揭示智能行为的问题尚未得到解答。
1. 压缩与智能之间的联系需要进一步探索。

本文的核心创新是什么

1. 首次研究了学习型图像压缩模型的规模扩展，将模型参数从6850万扩展至10亿。
1. 首次对学习型压缩模型的扩展定律进行了实证验证，揭示了模型规模与压缩性能之间的可预测关系。
1. 提出了HPCM-1B模型，这是一个10亿参数的大规模学习型图像压缩模型。
1. 通过实验验证了压缩性能随模型规模和训练计算量变化的幂律关系，使得能够预测更大规模模型的性能。

结果相较于以前的方法有哪些提升

1. HPCM-1B模型在整个比特率范围内在PSNR方面优于其他先进方法，在高比特率下实现了高达约0.3dB更高的PSNR。
1. 与VTM-22.0相比，HPCM-1B模型在Kodak、CLIC Pro Valid和Tecnick数据集上分别实现了24.21%、23.41%和25.68%的比特率节省。
1. 通过拟合的缩放规律预测，10B模型相比VTM，比特率可降低约30%。
1. 揭示了大规模压缩模型作为探索压缩与智能之间关系的工具具有巨大潜力。

局限性总结

1. 模型泛化能力有限，研究主要集中于增加HPCM架构及其基于Transformer的变体的参数数量，未探索其他模型设计的扩展趋势。
1. 模型规模粒度不足，由于计算限制，缩放规律曲线仅使用五种模型尺寸进行拟合。
1. 训练策略有待优化，尚未探索大规模学习型图像压缩的高级训练策略，如利用更多样化或更高质量的数据集、改进的学习率调度方案或其他优化技术。

深入阅读版本

导读

大语言模型（LLMs）的最新进展突显了智能与压缩之间的紧密联系。学习型图像压缩作为现代数据压缩的基本任务，近年来取得了显著进展。然而，当前模型在规模上仍存在局限，限制了其表征能力，而模型规模扩展如何影响压缩性能尚未得到探索。在本工作中，作者开展了一项开创性研究，旨在扩展学习型图像压缩模型的规模，并通过缩放规律揭示性能趋势。以最新的HPCM模型为基准，作者将模型参数从6850万扩展至10亿，并拟合测试损失与关键缩放变量（包括模型规模和最优训练计算量）之间的幂律关系。结果表明存在缩放趋势，从而能够外推至更大规模的模型。实验结果证明，扩展后的HPCM-1B模型实现了最先进的率失真性能。作者希望这项工作能够激发未来对大规模压缩模型的研究，并深化对压缩与智能之间联系的调查。

1 引言

大语言模型（LLMs）如GPT [1]、Qwen [59]和DeepSeek [18]在自然语言理解和生成方面的最新进展不仅革新了自然语言处理，还引发了关于智能本质的基本问题。一些研究表明智能与信息压缩能力之间存在密切联系[25, 26, 43]。根据信息论[11]，最优数据压缩需要为频繁符号分配较短的码字，为罕见符号分配较长的码字，从而最小化数据的预期负对数似然。这一目标在数学上等同于概率建模中最大化对数似然，这也是训练LLMs的原理。因此，压缩技术的进步可被视为建模、预测和推理世界能力的进步，而这些通常被认为是智能的特征。

这种联系引发了一个问题：数据压缩模型是否具有表现出智能特性的潜力？在数据压缩的各个领域中，图像压缩扮演着至关重要的角色，作为信号处理和通信中的关键技术。传统的图像压缩标准如JPEG[57]、JPEG2000[53]和BPG[5]在一段时间内得到了广泛采用。近年来，学习型压缩技术[27, 54]取得了巨大成功，尤其是学习型有损图像压缩[16, 37, 47]，其中模型优化率失真权衡以保留关键的视觉和语义信息。自Balle等人[3]在2016年提出开创性工作以来，许多研究为变换[16, 64]、量化[19, 60]和熵编码[20, 47]做出了贡献。最近，Li等人[37]提出了一种具有分层渐进式上下文建模（HPCM）的学习型图像压缩框架，其性能超过了先进的传统编码标准VVC[7]，提升了约20%。然而，由于编码复杂性的限制，这些模型的规模相对较小，可能会限制其表示能力。此外，模型规模与压缩性能之间的关系尚未得到探索，留下了关于大规模图像压缩模型是否能够带来显著提升甚至揭示智能行为的问题。

为弥合这一差距，作者提出了一项关于扩展学习型图像压缩模型的开拓性研究，为探索大规模压缩模型与智能之间的联系提供了潜在途径。具体而言，基于最先进的HPCM[37]框架，作者将模型参数规模从6850万扩展至10亿。如图1所示，随着模型容量的提升，作者的HPCM-1B模型能够实现卓越的压缩性能。除了性能提升之外，作者还通过实证研究探讨了压缩性能如何随模型规模变化。虽然这类扩展行为，通常被称为扩展定律[29]，在大语言模型[23]和视觉基础模型[51]中已被广泛研究，但在压缩模型中仍属空白。在本工作中，作者首次对学习型压缩模型的扩展定律进行了实证验证，揭示了模型规模与压缩性能之间的可预测关系。这种扩展行为与大语言模型相似，表明大规模压缩模型作为探索压缩与智能之间关系的工具具有巨大潜力。作者希望作者的工作能够激发对大规模压缩模型以及压缩与智能关系的进一步研究。

picture.image

2 相关工作

2.1 大型模型与规模法则

对大规模模型的研究揭示了清晰的幂律缩放关系：随着模型参数、训练数据和计算量的增加，任务损失倾向于以可预测的方式下降。Kaplan等人[29]首次通过交叉熵缩放量化了这一关系，而Hoffmann等人[23]将其完善为金毛狐计算最优缩放规则，该规则平衡了模型大小和训练token以实现最大效率。类似的模式也在多模态生成模型[22]、通用深度学习任务[52]甚至图像重建[31]中观察到，这表明当缩放与充足的数据和计算量相匹配时，可以实现可预测的性能提升。

在大语言模型（LLMs）中，例如GPT-4 [1]、LLaMA 3 [15]、Qwen3 [59]和DeepSeek-R1 [18]等代表性模型表明，通过使用高质量数据和稳定训练来扩展模型容量，能够可靠地提升推理能力、泛化能力和多语言性能，这与计算最优扩展规律相一致。

对于视觉基础模型（VFMs）和多模态大语言模型（MLLMs），DINOv2 [51]、ViT-22B [12] 和 InternVL3 [63] 等研究显示，在大型高质量数据集上预训练的更大模型能够提供更具迁移性的特征，并取得更好的零样本或少样本性能，而计算优化的趋势将规模扩展的优势扩展到视觉和跨模态任务。

2.2 学习型图像压缩

近年来，学习型压缩方法[24, 27, 34-36, 39-42, 54]在率失真性能方面表现出色，通常遵循联合优化框架[3]，该框架整合了变换、量化和熵模型[16, 17, 20, 28, 33, 37, 45, 47, 65]。

转换能力已从早期的卷积设计[3]发展到更深的残差结构和非局部注意力结构[9, 10, 20, 65]、可逆网络[48]、基于transformer的全局建模[33, 45, 64]以及线性注意力变体[16]。熵模型已从超先验[4]和自回归上下文模型[49]发展到联合空间-通道上下文利用[20, 21, 35, 50]、多参考上下文[28]、基于字典的参考[47, 58]以及分层渐进式上下文建模[37]。量化策略和训练策略[19, 38, 60]也得到了探索。最近，Zhang等人[62]分析了理想与经验率失真函数之间的差距，揭示了未来有损图像压缩技术的高潜力。此外，一些研究还利用大语言模型进行压缩任务[8, 14, 43]。

然而，尽管取得了这些进展，上述研究均未探讨如何扩展学习型图像压缩模型，因此尚不清楚大规模学习型图像压缩模型是否能够带来显著增益或表现出智能行为。

3 方法

3.1 概述

HPCM-1B基于HPCM框架[37]。整体架构如图2所示。编码器首先对输入图像

应用分析变换

，生成潜在特征

picture.image

潜空间被量化为

，然后通过学习概率模型

进行无损压缩。解码器通过合成变换从

重构

。

其中

和

分别表示分析和合成变换的可训练参数。遵循先前工作 [61]，作者将

的分布建模为形状参数

固定为 1.5 的广义高斯模型

。熵模型输出均值和尺度参数，这些参数从超先验模块和分层渐进式上下文模型（HPCM）中估计得到。超先验通过超分析变换

提取侧信息

，该信息被量化为

。然后通过超合成变换

对该侧信息进行解码，以提供初始熵参数。这里，

和

分别表示超分析变换和超合成变换的可训练参数。在 HPCM 中，潜在变量被划分为多个组并依次编码。在

-th 编码步骤中，熵参数利用已编码的潜在变量

和解码的侧信息进行细化：

的比特率计算如下

其中

表示广义高斯模型的累积分布函数。

该网络通过最小化率失真代价进行端到端训练：

其中

用于衡量重建失真度，

控制率失真权衡。

3.2 模型扩展策略

为了在压缩性能和复杂度之间取得更好的平衡，之前的HPCM-Base和HPCM-Large模型[37]分别只包含6.85M和89.7M参数，这限制了其表示能力。为了研究大规模学习型图像压缩以及潜在的缩放规律，作者逐步增加HPCM-Base架构（如图2所示）的参数数量，具体如表1所示。作者固定分析/合成变换和超分析/合成变换的层排列以及HPCM熵网络，以实现不同规模的受控比较。模型参数仅通过深度和宽度增长。首先，作者增加变换网络

中的ResBlock数量

，以及熵参数网络

中的DepthConv块数量

。对于0.5B和1B模型，作者进一步增加通道数量

以提供更高的容量。所得模型分别包含68.50M、120.08M、246.43M、543.57M和1002.00M参数。此外，对于1B模型，作者移除了基于交叉注意力的上下文融合模块以实现稳定训练，使用

作为进阶的上下文[37]。这些模型为学习型图像压缩的进一步缩放分析提供了支持。

picture.image

3.3 大型学习型图像压缩模型的扩展性分析

3.3.1 背景

规模法则描述了在固定其他因素的情况下，测试损失如何作为某个限制资源（例如模型大小

、数据集大小

或最优训练计算量

）的函数而变化。先前关于大语言模型的研究表明，损失

通常遵循幂律 [22, 29, 31, 52]:

其中

可以是

、

或

中的任意一个。该表达式自然地分解为两个部分：一个不可约项

和一个可约项

。为了解释这两个部分，作者将式 (6) 与其概率建模形式相关联。在许多场景下，包括有损图像压缩，测试损失包括在真实数据分布下的期望负对数似然（NLL），这可以表示为：

其中

和

分别表示真实数据分布和模型分布。

包含两部分：数据分布的不可约熵

，以及可约散度

，后者用于衡量模型与真实分布之间的差距。在式(6)中，不可约项

对应熵项

，而可约项

对应剩余建模误差。当

时，可约项

趋于零，损失函数趋近于

。这意味着一个无限大的模型可以精确匹配数据分布。

在实践中，遵循[22, 55]，作者将单项幂律拟合到测试损失

作为

的函数。

这可以看作是在消除公式6中的不可约基后，对可约组件进行拟合。作者进一步取对数，关系变为线性。

作者通过对数-对数尺度使用普通最小二乘法估计

和

。

3.3.2 与模型大小和训练计算相关的缩放规律

作者使用第3.2节中描述的5个模型，参数范围从68.5M到1.0B。作者采用率失真损失

，其中

，以及均方误差

来验证缩放规律。这些损失在Kodak[32]数据集上进行了测试。

模型参数

的缩放规律。作者首先研究了测试损失如何随模型规模变化。遵循Sec.3.3.1中的方法，作者使用SciPy的linregress函数在双对数尺度上拟合线性关系。如图3 (a)所示，结果揭示了明显的幂律趋势，特别是在三个最大的模型中。拟合的缩放关系为：

picture.image

皮尔逊相关系数

表明

与

之间存在较强的线性关系。较小的指数

表明

随着尺度的增加而逐渐下降。这些结果证实，提升 HPCM 模型的规模能够持续提升性能。

利用拟合的规律，作者可以预测更大规模模型的性能：

转换为BD-Rate后，10B模型在此速率点相比VTM，比特率降低了约30%，凸显了通过持续扩展可实现的显著潜在收益。

具有最优训练计算量

的缩放规律。作者进一步研究了测试损失如何随最优训练计算量进行缩放。对于5种模型尺寸中的每一种，作者跟踪测试损失

在训练过程中作为训练计算量

的函数，计算量以PFLOPs（

浮点运算）为单位进行测量。如图3(b)所示，作者提取

的帕累托前沿，以识别达到特定损失值所需的最优训练计算量

。拟合的幂律关系为：

这种规模趋势表明，当在足够的数据上训练时，更大的模型具有更高的计算效率，可以用更少的训练FLOPs达到相同的性能。

4 实验结果

4.1 实验设置

HPCM-1B实现基于HPCM代码库。

训练设置。所有模型均在Flickr2W数据集[44]上进行训练。训练过程中，图像被随机裁剪为

的块，批处理大小为32。优化遵循等式(5)中的率失真目标，其中失真度使用均方误差（MSE）进行测量。对于HPCM-1B模型，作者使用六个不同的拉格朗日乘子

进行训练，以生成完整的率失真曲线。对于其他尺度（120.08 M、246.43 M、543.57 M），仅训练单个率点

用于缩放规律拟合。作者采用Adam优化器[30]，设置

和

。HPCM-1B训练了200万步。学习率从

开始，在1.6M步后降至

，在1.8M步后降至

，在1.9M步后降至

。

评估设置。作者在三个常用测试数据集上评估压缩性能：Kodak数据集[32]，包含24张分辨率为512×768的图像；CLIC专业验证（CLIC Pro Valid）数据集2，包含41张高质量图像；Tecnick数据集[2]，包含

t 编码时间包括网络推理时间和算术编码时间。由于在发布代码和测试环境中实现的差异，算术编码时间在不同模型之间存在变化。

100张图像，分辨率为

。比特率以每像素比特数（bpp）衡量，失真以峰值信噪比（PSNR）衡量。速率节省采用BD-Rate指标[6]量化，以

作为基准。编码和解码时间在单核Intel(R) Xeon(R) Gold 6248R CPU和NVIDIA GeForce RTX 3090 GPU上测量。模型复杂度，包括kMACs/像素和参数数量，使用DeepSpeed库4计算。

4.2 速率失真性能与复杂度

作者主要将作者的1亿参数模型HPCM-1B与当前最先进（SOTA）的学习型图像压缩方法进行比较[16, 17, 20, 28, 33, 37, 45, 47, 65]。如图4所示，HPCM-1B在整个比特率范围内始终在PSNR方面优于其他先进方法。在Kodak和Tecnick数据集上，与现有最佳模型相比，它在高比特率下实现了高达

更高的PSNR。表2显示了各种方法的BD-Rate性能。与VTM-22.0相比，作者的HPCM-1B模型在Kodak、CLIC Pro Valid和Tecnick数据集上分别实现了

、

和

的比特率节省。

picture.image

4.3 扩展基于Transformer的架构

Transformer [13, 56] 在跨多个领域的大规模模型中展现了卓越的能力。在本工作中，作者同样探索了基于Swin Transformer [46, 64] 的变换网络——

和

在学习型图像压缩中的应用，同时保持HPCM熵模型的稳定性。作者将模型规模扩展至约0.25B和0.5B参数，并与相同规模的原始HPCM模型进行了比较。

5 局限性

作者的研究为大型学习图像压缩的缩放行为提供了宝贵的见解。

深度学习模型仍然存在一些局限性。

(1) 模型泛化能力。作者的扩展实验主要集中于增加HPCM架构及其基于Transformer的变体的参数数量。作者尚未探索其他模型设计的扩展趋势，这些设计可能表现出不同的行为。

(2) 模型规模粒度。由于计算限制，缩放规律曲线仅使用五种模型尺寸进行拟合。包含更多具有不同参数数量的模型配置将产生更稳健和可靠的缩放规律估计。

(3) 训练策略。作者尚未探索大规模学习型图像压缩的High-Level训练策略，例如利用更多样化或更高质量的数据集、改进的学习率调度方案或其他优化技术。将这些策略与更大的计算预算相结合，可能进一步释放大规模模型的性能潜力。

6 结论

在这项工作中，作者首次研究了扩展学习型图像压缩模型，并通过缩放规律来表征其性能。基于HPCM架构，作者训练了从68.5M到1B参数范围的模型，并拟合了测试损失与关键缩放变量之间的幂律关系。作者的分析揭示了一致的缩放趋势，从而能够进一步扩展到更大的模型。实验结果还表明，扩展后的HPCM-1B实现了最先进的率失真性能。作者希望这项工作能够为未来大规模学习型压缩模型的研究提供一个实用的基准和概念基础，并进一步探索压缩与智能之间的联系。

参考

[1]. Scaling Learned Image Compression Models up to. 1 Billion