CLIP-DQA：借助 CLIP 与层次信息，实现盲去雾图像质量精准预测！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

摘要——盲去雾图像质量评估（BDQA），旨在在没有参考信息的情况下准确预测去雾图像的视觉质量，对于图像去雾算法的评价、比较和优化至关重要。

现有的基于学习的BDQA方法取得了显著的成功，但DQA数据集的规模较小限制了它们的性能。

为了解决这一问题，在本文中，作者提出将大规模图像-文本对预训练的对比语言-图像预训练（CLIP）应用于BDQA任务。

具体来说，受人类视觉系统基于层次特征理解图像的启发，作者将去雾图像的全局和局部信息作为CLIP的输入。

为了将去雾图像的输入层次信息准确映射到质量得分，作者通过 Prompt 学习调整了CLIP的视觉分支和语言分支。

在两个真实的DQA数据集上的实验结果表明，作者提出的方法，命名为CLIP-DQA，在BDQA方法中实现了更准确的质量预测。

代码可在https://github.com/JunFu1995/CLIP-DQA上获取。

一、引言

雾霾是一种常见的自然现象，会显著降低场景中的能见度，导致许多计算机视觉算法，如目标检测[1]、[2]和图像识别[3]，出现严重的性能下降。为了缓解这一问题，已经提出了大量的图像去雾算法（DHAs）[4]-[10]。然而，在将这些去雾算法大规模部署之前，评估它们的有效性，即评估它们生成的去雾图像质量，是必要的。

评估去雾图像质量的最高准确方法是主观质量评价[11]，其中去雾图像的质量直接由一定数量的人类受试者进行评估。然而，由于需要开展耗时且劳动密集型的主观实验，主观质量评价的应用范围较窄。因此，提出了客观质量评价方法，旨在在没有人类参与的情况下自动评估去雾图像的质量。

一般来说，客观去雾质量度量可以划分为三个类别：全参考去雾图像

表示等贡献，

表示对应作者。

质量评估[12]-[14]、基于参考图的去雾图像质量评估[15]-[20]以及无参考去雾图像质量评估[11]、[21]-[24]。在评估去雾图像质量时，前两类需要参考图像，而最后一类仅以去雾图像为输入。在实际应用场景中，通常无法获得参考图像。因此，无参考去雾图像质量评估（NR DQA），也称为盲去雾图像质量评估（BDQA），近年来受到了广泛关注。

现有的图像质量评估（BDQA）方法主要包含传统方法[11]、[21]-[23]和基于学习的方法[19]、[24]、[25]。传统方法通常手动设计一些与雾霾相关的特征用于质量评估。由于手工特征在表示去雾图像的失真和内容方面能力有限，传统BDQA方法的表现往往不尽如人意。因此，基于学习的方法利用深度神经网络自动从去雾图像中提取代表性特征。与传统的BDQA方法相比，基于学习的BDQA方法在质量预测方面实现了更高的准确性。然而，它们的性能仍然受到DQA数据集规模较小的限制。

为了缓解这一问题，作者采用了对比语言图像预训练（CLIP）[26]，该技术在各种图像识别任务中表现出了良好的泛化能力[27]、[28]。在BDQA任务中，需要考虑人眼视觉系统的感知特性[11]，即基于层次特征的图像理解。因此，作者将保持去雾图像局部细节的图像块和保持去雾图像全局结构的图像块输入到CLIP中。然后，作者通过在CLIP的视觉和语言分支中分层插入可学习的 Prompt 来调整CLIP，以便精确地将去雾图像的输入层次信息映射到质量分数上。

本文的主要贡献主要体现在两个方面：

作者提出了首个基于CLIP的图像去雾质量评估方法，即CLIPDQA，该方法从全局和局部视角评估去雾图像。作者进行了广泛的实验，包括消融研究和可视化，以验证所提方法的有效性。

A. 问题表述

给定去雾图像

，盲去雾图像质量评估旨在在不提供任何参考信息的情况下估计去雾图像的视觉质量分数。在现有研究中，基于块的评价框架在盲去雾质量评估（BDQA）中得到了广泛应用。在这种框架下，作者首先从输入的去雾图像

中裁剪出

个块

，然后对每个块估计质量分数，最后使用平均分数作为整幅图像的质量分数。

其中，

表示基于深度学习的问答（BDQA）方法，

为估计的结果。

受人类视觉系统启发，该系统使用分层特征进行图像理解，作者从全局和局部两个角度评估去雾图像：

其中，

保留了局部细节，而

，即

的缩放版本，则维持了全局结构。此外，作者利用CLIP对

进行建模，CLIP能够从数百万个图像-文本对中学习到良好的泛化知识。接下来，作者将详细说明如何使用CLIP评估去雾图像。

B. 零样本基于问答的图像问答系统

由于CLIP能够判断图像与自然语言描述之间的相似性，作者可以直接使用CLIP来评估去雾图像，无需训练，即零样本BDQA。

设

和

为一对反义文本 Prompt ，例如，“好照片。”和“坏照片。”。根据公式2估计的视觉质量

可按以下方式计算：

在此，

和

分别是 CLIP 的语言分支从

和

中提取的文本表示。

是 CLIP 的视觉分支从

和

的图像对中提取的视觉表示。在这里，

计算文本表示和视觉表示之间的余弦距离。

然而，零样本BDQA的表现通常远未令人满意。造成这一结果主要有两个原因。首先，手工制作的反义词文本 Prompt 对于BDQA来说往往不够理想，因为设计有效的反义词文本 Prompt 需要相当的专业知识。其次，CLIP提取的视觉表示可能对BDQA不具有区分性，因为去模糊图像与CLIP训练时使用的图像在扭曲类型和外观上存在差异。

C.1 多模态 Prompt 调整

为了更好地将CLIP应用于BDQA，有必要使用DQA数据集对CLIP进行微调。受到 Prompt 学习[30]-[33]成功案例的启发，作者通过图1所示的多模态 Prompt 来调整CLIP，包括文本和视觉 Prompt 调整。多模态 Prompt 调整的核心思想是利用可学习的文本 Prompt ，从DQA数据集中自动挖掘出有用的软反义文本 Prompt ，并使用可学习的视觉 Prompt 来减轻去雾图像与自然图像之间的领域差距。

picture.image

文本性微调。CLIP的语言分支由

个 Transformer 层组成，其中第

个 Transformer 层可以定义为：

和

分别代表第

个 Transformer 层

的输入和输出。第一个 Transformer 层的输入

对应于手工制作的反义词文本 Prompt 的词嵌入。为了调整CLIP的语言分支，作者按层插入可学习的 Prompt 。

在本研究中，作者将可学习的 Prompt 集

通过全连接层

映射到与

相同的空间。值得注意的是，在经过

视觉 Prompt 微调的第

个Transformer层之后，

的输出将被丢弃。在本文中，CLIP的视觉分支基于Transformer，并包含

个Transformer层。每个Transformer层的公式定义如下：

其中，

、

和

分别表示类别 Token 、输入块片的 Token 集以及输入重缩放去雾图像的 Token 集。为了调整CLIP的视觉分支，作者还层次化地插入可学习的 Prompt 词。

作者通过一个全连接层

将可学习的 Prompt 集

映射到与

相同的空间。与文本 Prompt 微调类似，作者在 Transformer 层

之后丢弃可学习 Prompt 的输出

。

深度学习损失函数

对于DQA任务，作者采用均方误差（MSE）作为训练目标。

其中，

表示批量大小，

和

分别为第

个去雾图像的预测质量得分和平均评分。

第三章：实验

实验方案

为了验证所提出方法的有效性，作者在两个真实的去雾图像质量数据库上进行了实验：

DHQ数据库[17]：它包含250张模糊图像和由7种图像去雾算法生成的1,750张去雾图像。每张去雾图像都通过一个从0到100的平均意见评分（MOs）进行标注。exBeDDE数据库[13]：它包含12张无雾图像、167张模糊图像以及由10种图像去雾算法生成的1,670张去雾图像。每张去雾图像都通过一个从0到1的MOS进行标注。

根据视频质量专家小组（VQEG）[34]的建议，作者使用了斯皮尔曼秩相关系数（SRCC）、皮尔逊线性相关系数（PLCC）和肯德尔秩相关系数（KRCC）来比较性能。这三个评估标准均介于0到1之间，数值越高，性能越好。

为了进行公平的比较，作者对每种图像质量评估方法进行10次评估，并报告平均结果。在每次评估中，作者根据图像内容将数据集随机分为两部分，其中80%用于训练，20%用于测试。

作者基于ViT-B/32 CLIP构建了提出的方法，并在每个Transformer层中设置可学习的 Prompt 长度为8。在训练过程中，作者保持CLIP冻结，并使用Adam优化器[35]以1e-4的学习率优化剩余部分。总训练轮次和批量大小分别为50轮和64个。所有实验均在单块NVIDIA RTX 4090 GPU上运行。

B. 性能比较

为了验证所提出方法的 effectiveness，作者将其与13种代表性方法进行了比较，包括3种全参考通用图像质量评估（FR GIQA）方法、2种FR DQA指标、3种无参考通用图像质量评估（NR GIQA）方法、3种传统NR DQA方法和2种基于CLIP的NR DQA方法。除了FADE[21]和HazDetNet[25]之外的所有NR方法都使用与作者相同的设置进行了重新训练。结果如表1所示。从这张表中，作者可以得出以下观察。首先，由于缺乏无雾图像，五种FR IQA方法在DHQ数据集上无法产生结果，在exBeDDE数据集上的表现也不佳。其次，三种NR GIQA方法在两个数据集上对三种NR DQA方法表现出竞争力。这主要是因为FADE和HazDesNet是为雾密度预测而设计的，而不是用于质量评估，而BDQM则受到其浅层网络架构的限制。第三，基于CLIP的NR DQA方法

与HyperIQA相当，在DHQ和exBeDDE数据集上实现了第二好的性能。这表明CLIP模型在NR DQA方面具有广阔的潜力。第四，作者提出的方法，即CLIP-DQA，在DHQ数据集上显著优于HyperIQA。这证实了作者提出方法的有效性。

表一：不同方法在DHQ和EXBEDDE数据集上的结果。

由于缺乏参考图像，未报告FR指标在DHQ数据集上的性能。

表ⅡI 对提出方法中每个组件的消融研究。

C. 消融研究

文本 Prompt 调优的有效性。作者探讨了作者所提方法的两变种，即

和

。这两种方法都禁用了视觉 Prompt 调优，并基于去雾图像的局部信息进行质量评估。然而，

使用手工制作的文本 Prompt ，而

采用文本 Prompt 调优。这两种方法的比较结果展示在表2中。从表中可以看出，

在性能上显著优于

。例如，在DHQ数据集上，

的相关系数（SRCC）是

的两倍以上。因此，作者可以得出结论，文本 Prompt 调优是有效的。

picture.image

视觉 Prompt 调优的有效性。作者探讨了作者所提方法的一个变体，即

。与仅进行文本 Prompt 调优的

相比，

同时启用了文本和视觉 Prompt 调优。正如作者所见，

在所有三个评估指标上均表现出比

明显的优势，尤其是在 DHQ 数据集上。因此，作者可以得出结论，视觉 Prompt 调优是有益的。

《层次信息感知的有效性》。与

相比，作者提出的方法同时利用了去雾图像的局部和全局信息进行质量预测。如表2 所示，该方法在两个数据集上均优于

，这证实了层次信息感知的有效性。

D. 案例研究

为了了解所提出的方法如何感知去雾图像，作者可视化了最后视觉Transformer层的平均注意力图。在平均注意力图中，颜色较亮的区域对质量预测的贡献更大。根据图2，作者得出以下结论：

picture.image

首先，对于去雾图像的缩放版本，提出的方法倾向于将注意力分散到整个图像上。其次，对于从去雾图像裁剪出的块，该方法主要关注模糊区域。总之，提出的方法利用去雾图像的全局和局部信息进行质量预测，这与人类的视觉系统高度一致。

四、结论

本文提出将CLIP技术应用于BDQA的研究，命名为CLIP-DQA。受人类视觉系统特性的启发，CLIP-DQA从全局和局部视角对去雾图像进行盲评估。此外，CLIP-DQA使用可学习的多模态 Prompt 来调整CLIP，以实现准确的品质预测。

综合实验表明，所提出的方法达到了业界领先的性能水平。

参考

[1]. CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP .

CLIP-DQA：借助 CLIP 与层次信息，实现盲去雾图像质量精准预测 ！

参考