CMamba图像压缩框架来袭！混合架构降低复杂度，比率失真性能优，多数据集效果显著！

点击下方卡片，关注

「AI视界引擎」

公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

学习图像压缩（LIC）在建模图像内容分布、以实现压缩效果方面探索了各种架构，如卷积神经网络（CNNs）和 Transformer 。然而，在保持低计算复杂度（即参数、FLOPs和延迟）的同时实现高比率失真性能仍然具有挑战性。

在本文中，作者提出了一种混合卷积和状态空间模型（SSMs）的图像压缩框架，称为CMamba，以实现低计算复杂度下的优越比率失真性能。

具体来说，CMamba引入了两个关键组件：内容自适应状态空间模型（CA-SSM）模块和上下文感知熵（CAE）模块。首先，作者观察到SSMs在建模整体内容方面表现优秀，但往往丢失高频细节。相比之下，CNNs擅长捕捉局部细节。

受此启发，作者提出了CA-SSM模块，该模块可以在编码和解码阶段动态融合由SSM块提取的全局内容和由CNN块捕捉的局部细节。因此，在压缩过程中重要图像内容得到了良好保留。

其次，作者提出的CAE模块旨在减少编码后潜在表示中的空间和通道冗余。具体而言，作者的CAE利用SSMs来参数化潜在表示中的空间内容。得益于SSMs，CAE显著提高了空间压缩效率，同时减少了空间内容冗余。

此外，在通道维度上，CAE通过自回归方式减少潜在表示的通道冗余，这可以充分利用先前通道的先验知识，而不会牺牲效率。

实验结果表明，CMamba在比率失真性能上优于VVC，在Kodak、Tecnick和CLIC数据集上的BD-Rate分别提高了14.95%、18.83%和13.89%。

与之前的最佳LIC方法相比，CMamba在Kodak数据集上减少了51.8%的参数、28.1%的FLOPs和71.4%的解码时间。

一、引言

图像压缩是多媒体应用中的关键技术，它能够实现数字图像的高效存储和传输。随着社交媒体的兴起，每秒都有大量用户创建并通过互联网传输图片。为了在保持效率的同时实现更优的率失真性能，人们不断寻求先进的压缩方法。经典的损失性图像压缩标准，如JPEG[1]、BPG[2]和VVC[3]，通过手工规则实现了令人称赞的率失真性能。随着深度学习的发展，学习图像压缩（LIC）方法[4]-[13]取得了有希望的进展，通过利用各种卷积神经网络（CNNs）和 Transformer 架构，它们展现了更好的率失真性能。

总体而言，LIC遵循三阶段范式：非线性变换、量化和熵编码。非线性变换包括分析变换和综合变换。分析变换将图像从像素空间映射到一个紧凑的潜在空间。综合变换是一个近似逆函数，将潜在表示映射回像素。量化将潜在表示四舍五入到离散值，熵编码将它们编码成比特流。

特别是，LIC面临两个关键挑战：

（1）如何设计一种既有效又高效的非线性变换，在分析变换中产生紧凑的潜在表示，并在综合变换中恢复高保真图像。

（2）如何实现高度压缩的比特流的高效熵编码。

众多研究致力于解决上述挑战[14]-[17]。关于第一个挑战，基于卷积神经网络（CNNs）的模型往往难以捕捉全局内容，导致潜在表示中的冗余[14]、[18]。为了解决这个问题，一些研究利用Transformer进行图像压缩，因为它们具有强大的长距离建模能力[15]、[19]-[25]。然而，自注意力机制的二次复杂度带来了高昂的计算成本，从而限制了高效的压缩。至于第二个挑战，自回归模型和Transformer是利用空间或通道相关性的两种流行选择。由于空间维度通常很大，以自回归方式建模空间依赖性将导致高延迟[26]、[27]。此外，现有的通道自回归模型只能去除通道间的冗余[17]、[23]。因此，它们潜在表示中的空间冗余仍然存在。基于Transformer的熵模型能够捕捉复杂的空间或通道相关性，但它们对自注意力机制的依赖引入了高延迟和计算开销。

状态空间模型（SSMs）最近在多个视觉和语言任务上展现出卓越的性能[30]—[32]。受SSMs进展的启发，作者提出了一种基于混合卷积神经网络（CNNs）和SSMs的图像压缩框架，命名为CMamba，旨在实现更好的率失真性能和计算效率。作者的CMamba包含两个部分：(1)内容自适应SSM（CA-SSM）模块和(2)上下文感知熵（CAE）模块。

由于SSMs的线性计算复杂度，作者计划使用它们来建模全局内容，同时保留全局感受野[32]。然而，作者观察到SSMs在建模整体内容方面表现出色，但往往丢失高频细节。如图1(b)所示，随着网络深度的增加，这个问题变得更加严重。因此，仅依靠SSMs会导致较差的压缩性能。为了解决这个问题，作者的CA-SSM模块结合了SSMs和CNNs，以捕捉全局内容和局部细节，因为CNNs可以有效地捕捉细粒度的局部细节[15]，[23]，[33]。如图1(a)所示，CNNs提取的特征相比于SSMs捕捉到的特征包含更多的高频细节。因此，作者在CA-SSM模块中集成了一个简单而有效的CNN，作为SSMs的补充组件。

picture.image

在CA-SSM模块中，作者采用了一个动态融合块，该块能够自适应地融合SSM特征（即全局内容特征）和CNN特征（即局部特征）。动态融合块学会判断是否足够多的图像细节或全局内容被编码或解码，然后分别生成SSM和CNN特征的融合权重。通过这种方式，全局内容和局部细节特征在编码和解码过程中得到充分利用。

作者的CAE模块旨在联合建模空间和通道依赖关系，从而在比特流压缩中对潜在表示进行精确且高效的熵建模。具体来说，在空间维度上，作者的CAE模块利用SSM（状态空间模型）通过一个可学习的高斯模型来参数化空间内容的分布，因为SSM擅长捕捉全局内容，同时保持线性复杂度。

在通道维度上，通过自回归方式捕捉潜在表示中的通道间关系。考虑到比特流传输的特性，作者按顺序处理每个通道，并使用先前处理过的通道的隐藏状态作为条件，以进一步降低通道间的依赖性。这样，可以通过利用通道先验知识来减少通道冗余，从而在熵编码中实现更低的比特率。

为了展示CMamba的有效性，作者在广泛使用的图像压缩基准测试上进行了大量实验，包括Kodak [34]、Tecnick [35]和CLIC [36]。CMamba在这些基准测试中实现了卓越的率失真性能，分别比Versatile Video Coding (VVC)[3]提高了14.95%、18.83%和13.89%。特别是，与最先进的LIC方法[37]相比，在Kodak数据集上，CMamba将参数减少了51.8%，FLOPs减少了28.1%，解码时间减少了71.4%。主要贡献可以概括如下：

作者提出了一种基于卷积和状态空间模型的混合图像压缩框架，命名为CMamba，在低计算复杂度的条件下实现了更好的率失真性能。
作者提出了一种内容自适应状态空间模型（CA-SSM）模块，该模块在编码和解码阶段动态融合来自状态空间模型的全局内容和来自卷积神经网络（CNN）的局部细节。
作者还设计了一个上下文感知熵（CAE）模块，该模块明确地建模了空间和通道依赖关系，使得对潜在表示进行精确高效的熵建模成为可能，从而实现比特流压缩。

在主要路径[17]中，卷积层被替换为视觉状态空间块[32]。模型通过均方误差（MSE）进行优化，其中

被设置为0.05。

对数振幅定义为在归一化频率

（中心）和

（边界）处的对数振幅之差。为了更好地展示，这里仅展示了二维傅里叶变换特征图的一半对角线分量。

二、相关研究工作

A. 图像压缩

图像压缩是数字图像处理中的一个关键领域，旨在提高图像存储和传输效率。经典的损失性图像压缩标准，如JPEG[1]、BPG[2]和VVC[3]，依赖于人工制定的规则，并且已被广泛采用。近年来，学习型图像压缩取得了显著进展，并实现了有希望的性能[4]-[8]、[38]-[40]。Ballé等人[4]提出了一种开创性的端到端优化图像压缩模型，通过利用卷积神经网络显著提高了压缩性能。Cheng等人[18]将注意力机制纳入他们的压缩网络中，从而增强了复杂区域的编码。Xie等人[41]利用可逆神经网络（INNs）来缓解信息丢失问题，实现了更好的压缩。Yang等人[42]提出了一种基于扩散模型的变换编码损失性压缩方案。Zhu等人[22]和Zou等人[23]提出了基于 Transformer 的图像压缩网络，与卷积神经网络相比，获得了更优的压缩效果。

Liu等人[15]将 Transformer 和卷积神经网络集成，以利用非局部和局部建模能力，提高图像压缩的整体性能。与作者的工作同时，Qin等人[43]研究了用于图像压缩的纯SSM网络。

此外，已有几项研究提出了探索各种熵模型以改进图像压缩。受到图像编解码器中辅助信息的启发，超先验被引入以捕捉潜在表示中的空间依赖性[44]。在概率生成模型的自回归驱动下，Minnen等人[26]从因果上下文模型以及超先验中预测潜在表示。由于自回归模型中空间扫描过程耗时较长，Minnen等人[17]提出了一种通道自回归模型作为替代方案，而He等人[16]则开发了一种用于并行计算的棋盘上下文模型。在这些工作的基础上，这些方法的多种改进也被开发出来[28]，[45]，[46]。然而，在高效方式下联合建模空间和通道依赖性仍然是一个挑战。

状态空间模型

状态空间模型（SSMs）在捕捉动态和依赖关系方面已显示出其有效性[47]-[49]。为了减少SSMs中的过度计算和内存需求，Gu等人[50]将参数约束为对角结构。随后，提出了结构化状态空间模型，如复对角结构[51]、[52]、多输入多输出配置[53]、对角和低秩运算的组合[54]，以及门控激活函数[55]。其中，Mamba引入了选择性扫描和硬件加速算法，以促进高效的训练和推理[30]。Vim[31]是第一个基于SSM的模型，作为通用视觉 Backbone ，来解决Mamba在建模图像序列时的局限性。VMamba[32]引入了一个交叉扫描模块，以遍历空间域并将任何非因果视觉图像转换为有序的 Patch 序列。Huang等人[56]提出了一种新颖的局部扫描策略，将图像划分为不同的窗口以捕捉局部和全局依赖关系。Mamba在包括图像恢复[57]-[60]、点云处理[61]-[64]、视频建模[65]-[67]和医学图像分析[68]-[70]在内的各种视觉任务中进行了探索，但其如何在图像压缩中有效应用仍待研究。

第三章：预备知识

学习图像压缩（LIC）概述。LIC一般遵循三个阶段的范式：非线性变换、量化和熵编码。非线性变换包括分析变换和综合变换。分析变换

将图像

映射到潜在表示

。随后，量化

将潜在表示

转换为其离散形式。由于量化过程会在潜在表示

中引入截断误差，这会导致重建图像的失真。正如[17]中建议的那样，量化误差

可以通过潜在残差预测网络进行估计。最后，通过综合变换

将修正后的潜在表示

转换回重建图像

。整个过程可概括如下：

和

分别代表分析和综合变换的优化参数。

潜在表示

被假定为服从高斯分布，其特征参数为

，即均值

和标准差

（又称尺度）。在通道自回归熵模型中，引入了侧信息

作为额外的先验信息，以估计潜在表示

的概率分布 [17]。具体来说，一个超编码器

以潜在表示

作为输入，生成侧信息。随后，

也将通过

进行量化，转化为

。接下来，应用超先验解码器

对量化后的侧信息

进行处理，以推导出超先验

。此过程可表示为以下公式：

随后，潜在表示

沿着通道维度被划分为

个组，分别表示为

。超先验

和解码的组 $\hat{y}\_{s<i}$ 被用来估计当前组="" ${\hat{y}}\_{i}$ ="" 的高斯分布参数="" $\phi\_{i}$ 。因此，当前组="" 的高斯概率="" $p(\hat{y}\_{i}|\phi^{'},\hat{y}\_{s<i})$ ="" 以自回归方式建模。<="" p="">

为了训练整体学习的图像压缩模型，作者采用率失真作为优化目标，定义为：

λ控制速率与失真之间的权衡。R代表

和

的比特率，而

表示输入图像

与重建图像

之间的失真。状态空间模型（SSMs）可以被视为一个线性时不变（LTI）系统，该系统将序列输入

转换为输出

，通过一个隐藏状态

。其公式如下：

表示隐藏状态

关于时间t的一阶导数。

，

是LTI系统的系数矩阵。

是穿越参数[71]。

为了整合到深度模型中，连续时间状态空间模型（SSMs）需要进行离散化处理。这个过程使用时间尺度参数

将矩阵

和

转换为它们的离散形式。因此，方程（4）可以通过零阶保持（ZOH）方法进行离散化，具体如下：

第四章：方法学

作者提出的基于混合卷积和状态空间模型（SSM）的图像压缩框架如图2所示。具体来说，作者设计了两个组件，即内容自适应的SSM（CA-SSM）模块（由绿色方块 Token ）和上下文感知熵（CAE）模块（由黄色方块 Token ）。作者的CA-SSM模块（第IV-A节）旨在动态融合由SSM和CNN分别提取的全局内容和局部细节。随后，作者介绍了CAE模块（第IV-B节），用于联合建模空间和通道依赖关系。这些依赖关系有助于对潜在表示进行有效且高效的熵建模，从而实现比特流压缩。

picture.image

自编码器（SSMs）在多种视觉和语言任务上展现出卓越的性能[30]-[32]，[57]，并且它们提供具有线性复杂度的全局感受野。直观上，自编码器可能成为图像压缩更好的候选主干网络，因为它们有潜力平衡压缩效果和效率。因此，内容自适应自编码器（CA-SSM）模块被设计出来，以充分利用状态空间模型（SSMs）的线性计算复杂性和它们的全局内容建模能力，用于图像压缩。

作者的CA-SSM引入了一个视觉状态空间（VSS）模块来捕捉全局内容。该VSS模块采用二维选择性扫描（SS2D）层来遍历空间域，并将任何非因果视觉图像转换为有序的图像块序列[32]。这种扫描策略有助于SSM在处理视觉数据时，不会牺牲接收域。VSS模块中的SS2D层沿着四个方向展开特征图像块，生成四个不同的序列。然后，这些序列通过SSM进行处理，来自不同方向的特征输出被合并以重建完整的特征图。对于一个输入特征

，VSS的输出特征

可以表示为：

、

和

是学习得到的参数，

表示层归一化，

代表

激活函数[72]，而

表示逐元素乘积。函数

指的是 SS2D 操作，其定义为：

代表四个不同的扫描方向集合，其中

表示一个特定的扫描方向。在此，

在方向

上执行扫描扩展。随后，

的输出

被传递到SSMs中，

通过定义在方程（5）中的函数

进行估计。

结合了所有方向上的输出[32]。

尽管SSMs在建模整体内容方面效果显著，但它们通常难以保留高频图像细节，如图1(a)所示。此外，随着网络深度的增加，这一问题会变得更加严重，如图1(b)所示。因此，仅依靠SSMs会导致较差的压缩性能。为了解决这一问题，作者 Proposal 在CA-SSM模块中集成一个CNN模块，因为CNN在捕捉细粒度局部细节方面表现出色。如图1(a)所示，CNN提取的特征比SSM提取的特征包含更多的高频细节。

因此，采用了一种简单而有效的ResBlock[73]来捕捉局部细节。尽管VsS模块用于建模图像的整体内容，但ResBlock在作者的CA-SSM模块中与VsS模块发挥着互补作用。通过这种方式，输入特征

经过SSMs和CNNs的并行分支处理，产生特征

和

，如图2(b)所示。

此外，作者在CA-SSM模块中采用了动态融合块，用于融合SSM特征（即全局内容特征）和CNN特征（即局部特征）。该模块能够学习确定哪些特征更有助于提高率失真性能。通过这种方式，作者的CA-SSM模块在编码和解码过程中无缝地整合了全局内容特征和局部细节特征。具体来说，作者首先合并

和

，然后应用全局最大池化操作以获得通道级表示，记为

。随后，

通过多层感知器和softmax操作进行处理，以获得相应的注意力权重

和

。最后，这些注意力权重被用来动态调节从SSM和CNN提取的特征。因此，作者CA-SSM模块的输出

可以表示为：

依赖关系，从而促进了潜在表示的精确和高效熵建模。

在空间维度上，作者的计算辅助工程（CAE）利用自回归状态空间模型（SSMs）通过高斯建模来参数化空间内容，因为其在建模全局内容依赖性方面的线性复杂性。此外，在SSMs中采用了硬件加速算法，包括选择性扫描、 Kernel 融合和重计算，以辅助高效的训练和推理[30]-[32]，[66]。考虑到比特流序列解码的特性，对潜在表示中的信道间关系进行自回归建模。因此，编码和解码的效率不会显著延迟。具体来说，每个信道是按顺序处理的，并且基于之前处理过的信道的先验信息。

V. 实验

在此，

属于

空间中的可学习参数，

和

分别是多层感知器的权重。

上下文感知熵模块

如图2(c)所示，CAE旨在解决熵模型中的以下挑战：（1）如何在最小化比特数的同时精确地建模内容分布，以及（2）如何提高熵编码的效率。作者设计了CAE模块，以联合建模空间和信道特征。

实验设置

基于前人工作[23]，作者在OpenImages数据集[74]上训练了提出的CMamba模型。作者的CMamba模型使用Adam优化器[75]训练了50个epoch。每个批次包含从训练图像中随机裁剪的8个大小为

的patch。学习率初始化为

。训练到40个epoch后，学习率降低到

，持续5个epoch。

最后，作者以更大的裁剪尺寸

对模型进行最后5个epoch的训练，保持学习率为

。作者的模型通过速率-失真损失进行优化，如公式（3）所示。失真

通过两个质量指标来量化，即均方误差（MSE）和多尺度结构相似性指数

。用于训练MSE优化模型的拉格朗日乘数是

，而用于MSSSIM优化模型的拉格朗日乘数是

。

柯达、Tecnick和CLIC数据集。比较的方法包括最先进的LIC模型和手工制作的SE。

评估。作者在三个基准数据集上评估作者的模型，即柯达数据集[34]，图像尺寸为

，Tecnick测试集[35]，图像尺寸为

，以及CLIC专业验证数据集[36]，分辨率为2K。

使用峰值信噪比（PSNR）和结构相似性指数（MS-SSIM）来评估重构图像的质量，而每像素比特数（bpp）用于评估码率。除了率失真曲线外，作者还使用BD-Rate [76]来评估不同模型，BD-Rate描述了相同重构质量下的平均码率节省。所有实验均在NVIDIA GeForce RTX 3090 Ti和Intel i9-12900处理器上完成。

B. 速率失真性能

作者将作者的方法与最先进的（SoTA）图像压缩算法进行了比较，包括传统的图像编解码器Better Portable Graphics（BPG）[2]和Versatile Video Coding（VVC）内编码（VTM 17.0）[3]，以及LIC模型。

图3和表1展示了在Kodak、Tecnick和CLIC数据集上通过均方误差（MSE）优化后的率失真性能。图5展示了在Kodak数据集上通过MS-SSIM优化后的性能。这些结果表明，作者的方法在三个数据集上均优于先前的方法。为了得到定量结果，作者通过PSNR-比特率曲线计算了BD-Rate [76]作为定量指标。将 Anchor 定率失真性能设置为Versatile Video Coding（VVC）内编码（VTM 17.0）[3]在不同数据集上获得的基准值（BD-Rate = 0%）。与VVC相比，作者的方法在Kodak、Tecnick和CLIC数据集上的BD-Rate分别提升了14.95%、18.83%和13.89%。作者还在图3和图5中提供了几种SoTA图像压缩方法的BD-Rate。如图所示，作者的CMamba在率失真性能上优于其他SoTA方法。

picture.image

此外，作者进行了比较实验，以验证所提出的CMamba在多个指标上的效率，包括延迟、参数和FLOPs。如表1所示，作者的方法在Kodak数据集上表现出显著的改进，与SoTA LIC方法[37]相比，参数减少了51.8%，FLOPs减少了28.1%，解码时间减少了71.4%。总体而言，作者的CMamba在率失真性能上优于现有技术，并且显著降低了计算复杂度。

C. 定性结果

为了展示作者的方法能够生成视觉上令人满意的结果，作者在图4中提供了解压缩图像的可视化，以进行定性的比较。每个子图像标签旁边都标出了PSNR、MSSSIM和比特率值，以提供额外的定量参考。与TCM[15]相比，CMamba[Opt.MSE]在较小的比特率下保留了更多细节，例如阳台栏杆（红色方框）和壁画细节（黄色方框）的纹理更清晰。在相应的定量结果中，CMamba[Opt.MSE]实现了28.35 dB的PSNR、12.56 dB的MS-SSIM和0.224 bpp的比特率，优于TCM，其PSNR为28.34 dB，MS-SSIM为12.54 dB，比特率为0.246 bpp。更重要的是，CMamba[Opt.MS-SSIM]在比特率（0.139~\mathrm{bpp}）更低的情况下，与其他方法相比实现了更好的视觉质量。

picture.image

D. 消融研究

作者进行了消融实验，以证明作者提出的CA-SSM和CAE模块的有效性。具体来说，作者将CA-SSM模块和CAE模块分别替换为VSS块[32]和ChARM[17]作为 Baseline 模型。如表1所示，所提出的CA-SSM模块显著提升了率失真性能，节省了12.91%的BDRate，同时通过动态整合SSM和CNN的优点，保持了较低的编码时间（94毫秒）和解码时间（50毫秒）。此外，CAE模块与ChARM相比，在参数（56.21M）和计算成本（355.29G FLOPs）更少的情况下，进一步提升了率失真性能至-14.95% BD-Rate。这表明CA-SSM和CAE的结合不仅实现了优异的率失真性能，而且在计算复杂度和推理速度方面也达到了效率。此外，作者还进一步分析了CA-SSM和CAE模块中每个组件的贡献。

对CA-SSM模块设计进行分析：为了进一步验证CA-SSM模块的设计，作者进行了与其他架构（即CNN、Swin、SSM和Swin & CNN）以及融合方法（即求和和拼接）的实验，具体如表3所示。

在作者的实验配置中，CNN、Swin和SSM分别表示将CA-SSM模块替换为相应的层，同时保持约相同的参数数量。Swin&CNN表示CA-SSM模块内部的VSS块被Swin Transformer块[21]所取代。对于融合方法，Sum和Concat指的是通过求和或拼接操作融合特征的配置，而不是动态融合。所有配置均使用ChARM[17]作为熵模块。比较结果显示，作者的CA-SSM模块优于所有其他方案，实现了最佳的性能，BD-Rate降低了12.91%，参数量减少到64.33M。

picture.image

表1在Kodak、Tecnick和CLIC数据集上评估了率失真性能和编码复杂度。Enc.和Dec.分别代表编码和解码的推理延迟。Tot.表示总推理延迟。BD-Rate用于与VVC作为基准的率失真性能比较。

表示值越低越好。

CAE模块设计分析：为了展示作者CAE模块在熵建模方面的优越性，作者与其他熵模型[15]、[17]、[24]、[45]进行了实验，具体见表4。CAE模块利用了增强的SSM超先验和分组条件，以提升压缩效率和减少冗余。在表4中，与第二优的熵模型TCM[15]相比，CAE模块在率失真性能上取得了更优的表现，并且参数数量大幅减少。这一实验表明，CAE模块不仅在率失真性能上超越了现有的熵模型，还提高了压缩效率。

picture.image

使用各种压缩方法对Kodak数据集的essed kodim24.png图像进行处理。分别得到最优均方误差（Opt.MSE）和最优结构相似性指数（MS-SSIM），以及MS-SSIN SE和MS-SSIM。更详细的视觉比较内容请参考补充材料。

表四：在柯达数据集上，对所提出的情境感知熵（CAE）模块与各种熵模型进行比较。

此外，作者通过实验仔细验证了CAE模块的有效性，具体结果如表5所示。具体来说，作者比较了包括CNN、Swin Transformers和SSMs在内的不同方法，以捕捉空间依赖关系。同时，作者还评估了通道依赖的有效性。通道依赖以自回归的方式捕捉。w/o CAR表示直接通过均值和尺度超先验[26]估计潜在表示

的分布参数。这项实验表明，CAE模块在保持效率的同时，通过联合建模空间和通道依赖，实现了显著的压缩性能提升。

picture.image

表5展示了在KODAK数据集上对所提出的环境感知熵（CAE）模块的消融研究。其中，S代表空间依赖性，C表示通道依赖性，CAR表示通道级自回归建模。

此外，作者的CAE模块通过超先验估计潜在表示

的均值

和尺度

，以消除潜在表示

的冗余[18]，[44]。因此，作者对潜在相关性进行了以下分析。潜在相关性反映了

中的冗余。图6中的空间相关性图展示了不同模型在冗余减少方面的能力。STF（图6(a)）和TCM（图6(b)）显示出更高的相关性，表明冗余移除效果较差。

相比之下，CMamba（1+/0 CAE）（图6(c)）展现了改进的冗余减少。值得注意的是，作者的CMamba（图6(d)）在空间位置上实现了最低的相关性，这得益于其全局有效感受野以及CAE模块的整合。这些结果证实了CMamba在去相关潜在表示方面的优越性，从而实现了更低比特率（0.42 bpp）和更高的PSNR（34.38 dB）的压缩性能。

picture.image

六、结论

在本文中，作者介绍了CMamba，这是一种结合卷积神经网络（CNNs）和状态空间模型（SSMs）优势的混合图像压缩框架，旨在在高速率-失真性能和低计算复杂度之间取得平衡。

所提出的基于内容的自适应状态空间模型（CA-SSM）模块有效地整合了来自SSMs的全局内容与来自CNNs的局部细节，确保在压缩过程中保留关键图像特征。

此外，上下文感知熵（CAE）模块通过减少潜在表示中的冗余，利用SSMs进行空间参数化以及自回归方法降低通道冗余，提高了空间和通道压缩效率。

值得注意的是，CMamba在参数、浮点运算（FLOPs）和解码时间方面实现了显著降低，进一步强化了其在需要高效且高性能图像压缩场景中的实际应用性。通过CA-SSM和CAE模块推进SSMs与CNNs的集成，CMamba在学习的图像压缩领域迈出了重要的一步。

参考

[1]. CMamba: Learned Image Compression with State Space Models .

点击上方卡片，关注

「AI视界引擎」

公众号

CMamba图像压缩框架来袭！混合架构降低复杂度，比率失真性能优，多数据集效果显著 ！

参考