PerceptCLIP | 轻调CLIP解锁人类主观评估潜能,多任务SOTA+跨域泛化能力全面突破

大模型向量数据库云通信

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

视觉感知任务旨在预测人类对图像的判断(例如,图像引发的情感、图像质量评估)。与物体/场景识别等客观任务不同,感知任务依赖于主观的人类评估,这使得其数据标注变得困难。这种标注数据的稀缺性导致了数据集规模小,进而导致泛化能力差。通常,针对每个感知任务都会设计专门的模型,这些模型针对其独特的特性和自己的训练数据集进行定制。

作者提出了一种统一的架构框架,用于解决多个不同的感知任务,利用CLIP作为先验知识。PerceptCLIP基于最近的研究发现,这些发现表明CLIP与人类判断有很好的相关性。虽然CLIP被明确训练以对齐图像和文本,但它隐式地也学习了人类的倾向。作者把这归因于CLIP训练数据中包含人类编写的图像标题,这些标题不仅包含事实性的图像描述,不可避免地也包含了人类的情感和情绪。这使得CLIP成为感知任务的特别强大的先验知识。因此,作者建议对CLIP进行最小的调整就足以解决各种感知任务。作者的简单统一框架采用轻量级的调整来微调CLIP以适应每个任务,而不需要任何特定于任务的架构更改。

作者在三个任务上评估了PerceptCLIP:(i)图像记忆度预测,(ii)无参考图像质量评估,(iii)视觉情感分析。PerceptCLIP在这三个任务上都实现了最先进的成果,同时在不同数据集上展示了改进的泛化能力。

  1. 引言

视觉感知任务是一个长期的研究领域[24, 29],它结合了心理方面[11, 27, 42]和实际应用,如教育[7, 48]和广告[2, 31, 34, 40]。这些任务包括预测人类感知的图像质量[21, 28, 61]、对图像的情感反应[33, 54]以及图像的可记忆性[18, 44]。与物体或场景识别等客观任务不同,感知任务依赖于主观的人类评估,这使得其数据标注变得困难。首先,捕捉真实的人类反应需要精心设计的实验,例如使用精确的调查问题来区分由图像引发的微妙情绪状态。此外,不同人对感知的差异性要求收集来自多个参与者的数据,以确保结果的稳健性和可靠性[9, 18, 23]。这种人类标注数据的稀缺性导致了数据集规模较小,从而限制了预测模型的能力和泛化能力。

通常,针对每个感知任务都会设计专门的模型,这些模型根据其独特的特性和训练数据集进行定制。例如,情感识别模型[51, 52]通常整合心理学见解,而图像质量评估模型[36, 50]则关注多级图像特征。然而,全面理解每个感知任务中人类感知的具体特征是一个持续的研究课题,并且仍然存在争议[3, 22, 47, 60]。

由于人工标注数据有限,需要强大的感知先验。在本文中,作者提出了一种名为PerceptCLIP的统一架构框架,用于解决多种不同的感知任务。PerceptCLIP基于最近的研究发现[43],这些发现表明CLIP与人类判断有很好的相关性。尽管CLIP被明确训练以对齐图像和文本,但它也隐式地学习了人类的偏好。作者把这归因于CLIP的训练数据特性,这些数据包括人类编写的图像标题,不仅包含事实性的图像描述,不可避免地还包括主观方面,如人类的情感、偏好和情绪。这使得CLIP成为感知任务的特别强大的先验。因此,作者建议对CLIP进行最小程度的调整,而不是广泛的微调,就足以在感知任务上实现强大的性能。

一些先前的方法使用了CLIP进行特定的感知任务。然而,其中一些方法对CLIP的大部分组件进行了完全微调[59],从而抹去了其强大的预训练知识,并冒着数据集过拟合的风险。其他方法则依赖于仅调整CLIP的文本 Prompt [4, 5, 46, 52],这过于限制性,阻碍了相关层的适当适应。

PerceptCLIP在保留CLIP强大的捕捉多样化感知属性能力的同时,也允许足够的灵活性以适应特定任务。

具体而言,作者的简单统一架构框架采用轻量级适配来微调CLIP以适应每个任务,无需进行任何特定任务的架构更改。作者在CLIP视觉编码器上应用LoRA(低秩适配)[16],选择性地微调仅注意力层,随后接以MLP头。这种方法在保留CLIP感知先验的同时,实现了特定任务的细化。

作者在三个任务上评估了PerceptCLIP:(i) 图像记忆度预测,(ii) 无参考图像质量评估,以及(iii) 视觉情感分析。PerceptCLIP在所有三个任务上都取得了最先进的结果,同时在不同数据集上展现了改进的泛化能力。作者的结果表明,CLIP已经拥有丰富的感知知识,并且通过有效的调整,无需广泛的手动调整或领域专业知识,就能超越之前的特定任务方法。此外,作者通过使用每个数据集不同的MLP头,并使用对所有数据集进行联合微调的CLIP Backbone 网络,展示了在多个相同任务数据集上联合训练的好处。这显著提高了模型在小数据集上的性能。

作者的贡献如下:

  • • 作者提出了一种简单的统一框架,该框架利用CLIP的预训练知识,能够有效适应多种感知任务,并消除了对特定任务架构调整的需求。
  • • 作者的研究模型在三个不同的感知任务上实现了最先进的性能:图像可记忆性预测、无参考图像质量评估和视觉情感分析,展示了优异的结果以及在不同数据集上的更好泛化能力。
  • • 作者证明了在多个不同数据集上联合训练同一任务,能够提高小型数据集上的模型性能。
  1. 相关工作

无参考图像质量评估(IQA)。无参考IQA涉及在无参考图像的情况下预测图像的感知质量(根据人类判断)。早期方法主要使用基于CNN的架构[19, 28, 32, 39, 45]或混合CNN-Transformer模型[50, 58]。这些方法旨在捕捉局部和全局图像特征,这对于准确的质量评估至关重要[36]。最近基于Transformer的模型已经展示了进一步的改进[20, 36]。IQA的一个重要进展是大规模预训练模型的集成[46, 50, 59]。虽然CLIP已被用作预训练 Backbone [46, 59],但现有方法要么完全微调它,要么仅优化文本 Prompt ,未能有效地适应IQA任务并充分利用其强大的先验知识。当前最先进的方法[50]同时使用预训练的ViT和ResNet,它们在ImageNet上训练,并将它们适应到IQA任务。PerceptCLIP在具有显著更少的可训练参数的情况下超越了这些方法。

图像记忆度预测。早期工作[17, 18]表明,图像记忆度(即图像被记住的可能性)是图像的一种固有属性,主要受其内容和结构的影响。那些初始方法依赖于全局图像描述符和颜色直方图,后来发展到利用从微调的CNN[21]中提取的特征,这显著提高了预测性能。后续方法[25, 44]从图像字幕系统或软注意力机制中引入了额外的语义特征。残差网络(ResNets)进一步提升了记忆度估计,如[8]中的研究将ResNet50和LSTM集成进行回归。最近的工作[14]探讨了使用视觉Transformer(ViT)[6],其表现良好,但仍然不及[44]。PerceptCLIP利用CLIP感知先验,在性能上优于上述方法。

视觉情感分析。评估人们对图像的情感反应和情感倾向的问题,通过各种方法得到了发展。早期工作[38, 53]使用预训练的CNN Backbone 网络进行特征提取,而基于图的方法[49, 54, 55]强调了物体-图关系和情感增强特征,突出了上下文交互的重要性。[51]引入了层次情感模型,利用心理学理论以改善情感表示。最近,CLIP被用于情感识别[4, 5, 52],主要通过基于 Prompt 的学习,同时一些研究进一步利用了心理学研究的见解。PerceptCLIP在不依赖特定任务知识的情况下展示了改进的结果。

与依赖特定任务架构的先前方法不同,作者使用单一架构跨任务,消除了进行大量修改或需要领域专家知识的需要。如上所述,很少有工作使用CLIP进行特定的感知任务。然而,他们要么训练了所有参数,冒着丢失其先验知识的风险,要么通过仅应用 Prompt 调整采取了限制性方法。相比之下,PerceptCLIP在保留CLIP的感知先验和允许特定任务自适应之间找到了平衡,实现了最先进的结果。

  1. 感知任务统一框架

作者提出了一种统一的框架,该框架能够有效地适应各种感知任务,同时保持简单、一致的架构(见图2)。PerceptCLIP使用CLIP视觉编码器[37],随后通过MLP Head 进行特定任务的预测。为了保留CLIP的预训练知识,作者对注意力权重应用了LoRA[16],从而实现了轻量级的特定任务适应,同时额外参数最少。作者在所有任务中使用了相同的架构和一组超参数,减少了大量特定任务调整的需求。在第5节中,作者对PerceptCLIP在三个不同的感知任务上进行了评估:视觉情感分析、可记忆性预测和图像质量评估。

picture.image

3.1 架构与训练

为了在保留CLIP的感知知识的同时实现高效的适应,作者仅使用LoRA对视觉 Transformer 的 Query (q)、键(k)和值(v)注意力层进行微调,分解秩为

,缩放因子为

。这显著减少了可训练参数的数量,同时允许进行特定任务的适应,从而将可训练参数减少到低于300万。

模型训练:作者在所有任务中遵循一致的训练策略。使用AdamW优化器,权重衰减为1e-4来优化LoRA权重和MLP。作者探索了4种不同的学习率(5e-5、1e-4、5e-4、1e-3),并实现了提前停止机制,耐心值为12个epoch,最大值为40个epoch。最终模型基于最高的验证分数进行选择。在输入模型之前,所有图像都使用CLIP预处理器进行归一化。特定任务的损失和增强方法在第4节和补充材料A1中解释。

3.2 多数据集训练

虽然PerceptCLIP表现良好,但在小数据集上,从训练到测试的泛化仍然具有挑战性。作者提出在同一个任务中,使用LoRA对多个数据集上的相同CLIP视觉编码器进行自适应调整,使模型能够利用更大的数据集,并提高对小数据集的性能(参见第5节)。

PerceptCLIP使用了一个带有LoRA权重的单个CLIP视觉编码器,以及针对数据集特定的MLP头。训练过程遵循两阶段流程。在第一阶段,整个模型一起训练,通过比例采样确保每个数据集按其大小比例贡献于一个批次。然后通过平均数据集特定的损失来优化模型。在第二阶段,仅对MLP头进行微调以适应目标数据集,而CLIP编码器保持冻结状态。这允许PerceptCLIP适应具有独特特性的每个数据集,而不改变CLIP编码器提供的共享表示(该编码器由所有数据集共享)。

  1. 任务与数据集

在本节中,作者介绍了在研究中使用的三个感知任务(图3),以及它们的数据集细节和损失函数(更详细的内容见补充材料A1)。

picture.image

4.1 图像质量评估(无参考)

图像质量评估(IQA)衡量人类对图像质量的感知,考虑因素包括清晰度、噪声和失真等,对于许多视觉任务(例如图像生成和增强)至关重要。它被表述为一个回归问题,预测与人类判断一致的连续质量分数(见图3a)。作者使用包含真实失真(例如,运动模糊、过曝)和合成失真(例如,手动添加的噪声和颜色量化)的多样化基准数据集,这些失真的类型和强度各不相同。每个数据集都通过众包质量评分进行标注,平均意见分数(MOS)反映了人类的感知。

作者使用了四个真实的失真基准数据集:LIVEC [10](1,162张图像)和SPAQ [9](11,125张图像),这两者都专注于由移动设备捕获的真实图像;KonIQ-10k [15](10,073张图像),包含多样化的真实场景;以及FLIVE [57],包含来自社交媒体和流媒体平台的39,810张图像。此外,作者还使用了三个合成失真基准数据集,这些数据集包括压缩伪影、噪声和颜色量化等失真。每个数据集都包含参考图像和相应的受控退化图像:TID2013 [35] 包含25张参考图像和3,000张失真图像,LIVE [41] 包含29张参考图像和779张失真图像,KADID-10k [26] 提供81张参考图像和10,125张失真图像。

作者遵循与[50]相同的训练程序,包括损失函数、数据增强和数据划分(见补充材料A)。具体来说,作者使用基于皮尔逊线性相关系数(PLCC)的损失函数。给定一个包含m个图像的批次,其预测质量分数为

,对应的真实标签为

,PLCC诱导的损失定义为:

其中

表示预测分数和真实分数之间的皮尔逊相关系数。在推理过程中,作者对每个图像的15个随机裁剪版本的平均分数进行预测。数据被分为10次,每次划分中80%用于训练,20%用于测试。从训练集中,进一步保留10%用于验证。

4.2 图像记忆预测

本任务旨在预测图像的记忆效果。该问题被表述为一个回归问题,其目标是估计一个反映图像被记住可能性的记忆度评分(见图3b)。

作者在两个基准数据集上训练和评估PerceptCLIP。LaMem数据集[21]包含来自不同来源的大量图像,包括场景、物体和艺术作品,共计约60,000张。Things记忆度数据集[22]包含26,107张物体图像,覆盖1,854个不同的概念。LaMem数据集分为五部分:75%用于训练,5%用于验证,20%用于测试。对于Things数据集,作者使用整个数据集进行泛化评估。训练中使用的损失函数是记忆度评分上的均方误差(MSE)损失。

4.3 视觉情感分析

视觉情感分析(VEA)是一种分类任务,专注于预测图像可能激发观众的情感反应(见图3c)。

作者实验了两个显著的基准数据集,这两个数据集都支持二元情感分类(积极与消极)以及更细致的情感多类分类,均由人类标注员精心标注。EmoSet [56] 是目前最大的视觉情感数据集,包含来自社交网络和艺术来源的118,102张图片,被标注为8种平衡的情感:敬畏、兴奋、娱乐和满足(积极)/愤怒、悲伤、厌恶和恐惧(消极)。EmotionROI [33] 包含1,980张Flickr标注图片,分为6种情感:快乐、惊讶(积极)/愤怒、厌恶、恐惧和悲伤(消极)。遵循[56],EmoSet 被分为80%的训练集、15%的测试集和5%的验证集,而EmotionROI则随机分为5个分割,其中75%为训练集、20%为测试集和5%为验证集。PerceptCLIP使用交叉熵损失进行训练。

  1. 实验结果

在本节中,作者展示了PerceptCLIP在三个不同感知任务上的训练结果。作者的训练模型在所有三个任务上都实现了最先进(SOTA)的结果,并取得了显著的性能提升。作者首先分别展示每个任务的实验结果,并将其与最佳任务特定方法进行比较。随后,作者展示了针对特定任务使用多个数据集训练模型的有效性,这导致在较小数据集上实现了显著的性能提升。

5.1 图像质量评估

作者在7个显著的数据库上训练和评估PerceptCLIP,这些数据库涵盖了真实和合成的失真,使用了Xu等人[50]提供的标准10个分割。PerceptCLIP使用中位数斯皮尔曼秩相关系数(SRCC)和中位数皮尔逊线性相关系数(PLCC)进行评估,并采用4参数逻辑回归校正,如[50]中所述(见补充A1)。

7个数据集在SRCC和PLCC中。在剩余的数据集(TID2013)上,它实现了与表现最佳的IQA专用模型(DEIQT [36])相当的PLCC分数,但SRCC略低。考虑到可训练参数的数量,作者的结果更为令人印象深刻。PerceptCLIP大约包含300万个可训练参数,而其他模型则有900万个到1.52亿个,这突显了CLIP感知先验的优势。

此外,如表2所示,PerceptCLIP不仅设定了新的最先进结果,而且在不同数据集上(即在某个数据集上训练,但在另一个数据集上测试)展示了强大的泛化能力。这突显了PerceptCLIP的鲁棒性及其学习有意义的感知特征的能力,而不仅仅是过度拟合数据集特定的模式。值得注意的是,泛化能力的提升显著大于数据集内评估的改进。例如,当在KonIQ上训练和测试时,与LoDA相比,作者实现了1.4%的相对SRCC改进,而在泛化设置中,当在FLIVE上训练并在KonIQ上测试时,改进增加到6.4%的相对SRCC。作者轻量级的自适应确保了在针对特定任务微调时,作者保留了CLIP强大的人性化感知先验。

picture.image

5.2 图像记忆预测

作者在LaMem数据集上使用标准的5折交叉验证策略进行模型训练和评估。为了评估泛化能力,作者按照[14, 30]中的方法,在THINGS记忆度数据集上评估PerceptCLIP。性能报告使用5折的平均SRCC和平均均方误差(MSE)。表3展示了PerceptCLIP在LaMem上的性能,与领先的记忆度专用方法[8, 14, 21, 25, 44]进行了比较。PerceptCLIP显著优于所有其他模型,在两个指标上均达到了新的最先进水平。具体来说,它将SRCC相对于第二好的模型[44]提高了2.9%,将MSE相对于之前表现最好的模型[14]降低了9.2%。此外,PerceptCLIP还显示出显著的更好的泛化能力。当在LaMem上训练并在THINGS上评估时,它相对于之前报道的最佳结果[14]实现了12%的相对改进,如补充表ST1所示。总的来说,这证明了CLIP作为图像记忆度任务先验的强大能力。

picture.image

5.3 视觉情感预测

作者在EmoSet和EmotionROI数据集上进行训练和评估,使用第4.3节中描述的标准分割,并报告了不同数据集下的2、6和8种情感类别的情感分类准确率。表4比较了PerceptCLIP与各种现有方法[4, 5, 38, 51, 52, 55]的性能,这些方法旨在对图像引发的情感进行分类。结果表明,PerceptCLIP在两个基准测试中均取得了最先进的性能,在二元情感分类(积极与消极)和多类情感分类(EmoSet为8类别,EmotionROI为6类别)方面均表现出色。

picture.image

值得注意的是,在多类情感分类方面的改进更为显著,因为二分类在各个模型中已经表现出很高的性能。PerceptCLIP在多类情感分类中,对于EmoSet和EmotionROI分别实现了大约4%的相对准确率提升。这些结果进一步强化了PerceptCLIP的有效性。更多的比较和指标可以在补充材料A2中的表ST2和ST3中找到。

5.4 多数据集训练

作者展示了多数据集训练的结果,其中单个模型在多个相同任务的数据集上进行训练。在这个设置中,CLIP的注意力层的LoRA微调在数据集之间是共享的,而最终添加的多层感知器(MLP)头则是针对特定数据集的。

在多个数据集上进行训练提供了额外的数据,显著提高了在较小数据集上的性能(见表5),同时在较大数据集上保持了可比的结果(见表ST4至ST6)。作者展示了四个模型的训练结果,每个模型都在一组特定的数据集上进行训练:(1)真实的图像质量评估(IQA)数据集(LIVEC、KonIQ10k、SPAQ),(2)合成的IQA数据集(KADID-10K、LIVE、TID-2013),(3)可记忆性数据集(THINGS、LaMem),以及(4)情感数据集(EmotionROI、EmoSet)。例如,在IQA任务中,当与较大的KonIQ和SPAQ数据集一起训练时,作者在包含仅1,126个示例的小型LIVEC数据集上实现了1.5%的相对改进,而单独在LIVEC上训练时则没有这种改进。这些结果强调了使用CLIP作为先验知识并最小化适应性的强大作用,因为它使作者能够利用CLIP的感知知识,这可能与不同数据集之间的共享属性高度一致。当作者将这些多数据集训练与之前在这些数据集上的模型进行比较时,改进更为显著(例如,在EmoROI-6上相对于先前SOTA的相对改进为5.6%)。作者的多数据集模型在所有数据集和任务上均实现了改进的SOTA结果。

picture.image

  1. 可解释性与可视化

作者通过可视化模型中的注意力头,以深入了解其决策过程。具体而言,作者专注于分析所有层的注意力,以识别对预测最关键的 Head 。为此,作者采用了一种自动化的注意力 Mask 方法,以系统地确定各个 Head 的重要性。首先,将一张图像通过模型以获得 Baseline 预测。然后,再次处理同一张图像,但这次将目标 Head CLS Token 的注意力替换为一个均匀、等权重的映射。通过比较得到的预测与 Baseline (即 Mask 前后)的结果,作者可以确定 Head 注意力对预测的重要性。性能的显著下降表明该 Head 很重要。通过在许多图像上重复此过程并平均预测差异,作者可以量化每个 Head 的重要性。

对于最具影响力的(自动检测到的) Head ,作者选择那些预测差异最大的图像。图4展示了其中一些图像,以及PerceptCLIP和原始CLIP的注意力 Heatmap 的差异。这种比较突出了注意力的转移,揭示了作者的微调模型如何将焦点重新分配到不同的图像区域,揭示了它认为与感知属性预测相关的特征。

picture.image

图4展示了情感和记忆度预测的视觉示例。注意力图显示,模型关注于每个情感的语义相关区域。例如,在被分类为引发恐惧的图像中,模型聚焦于血液,这是恐惧的强烈视觉线索。对于愤怒,模型关注于火焰,而对于兴奋,它突出显示张开口和做出“点赞”手势的女孩(更多示例见补充图S1和S2)。对于记忆度,模型主要关注图像中最独特和可识别的物体。例如,在包含多个元素的图像中,模型关注于冒烟的烟囱,这可能会对记忆度产生显著贡献。总的来说,这些示例表明,作者的微调模型成功地学会了关注感知上有意义的图像特征。

  1. 消融研究

在本节中,作者进行了一项消融研究,以分析PerceptCLIP中不同设计选择的影响。

训练策略。作者旨在研究如何有效地利用CLIP的感知先验,同时将其适应到不同的任务中。作者比较了三种不同的训练策略:(1)对CLIP的视觉编码器进行完全微调,(2)冻结CLIP,仅训练MLP Head ,以及(3)作者选择的方法——使用LoRA适应(注意力 Head )来微调CLIP。如表6所示,完全微调显著降低了性能。这可能是由于灾难性遗忘,模型失去了其强大的预训练先验,无法有效地泛化。虽然仅训练MLP(冻结CLIP权重)比完全微调CLIP的结果更好,但与使用LoRA相比,仍然有所不足。使用LoRA适应提供了最佳平衡,允许模型高效地微调,同时保留CLIP的强大感知先验。关于作者两步多数据集训练的消融实验,请见补充材料A3。

picture.image

MLP与线性层

作者通过比较简单线性层与作者在主模型中使用的MLP头架构,探讨了不同 Head 架构的影响。如表7所示, Head 架构的选择对IQA和VEA任务中的性能影响较小,两种架构都表现出竞争力。然而,在可记忆性任务上,MLP Head 表现出更好的性能。在所有任务中,两种 Head 都使用PerceptCLIP实现了SOTA结果。

picture.image

主干网络选择。为了评估不同视觉主干网络作为感知先验的作用,作者在保持其余架构和LoRA配置不变的情况下,对3种不同的预训练主干模型(MAE、DINOv2和CLIP,均使用ViT-L/14)进行了实验。如补充表ST8所示,虽然PerceptCLIP在DINOv2上也表现出良好的效果,但在所有三个任务中,CLIP均取得了最佳结果。这进一步证明了CLIP能够有效地捕捉感知属性,使其成为感知任务的强大先验。

ViT尺寸影响。为了评估视觉Transformer尺寸对性能的影响,作者比较了三种CLIP视觉编码器变体:ViT-B/16、ViT-B/32和ViT-L/14。结果总结在补充表ST7中,表明ViT-B/16优于ViT-B/32,这表明更精细的 Patch 分辨率有助于更好的感知理解。此外,ViT-L/14在所有任务中均取得了最佳结果,这加强了作者选择将其作为 Backbone 网络的决定。

  1. 结论

作者提出了一种简单的统一框架,用于视觉感知任务,该框架利用了CLIP隐含但丰富的感知知识。CLIP训练数据中的人类标注图像标题还包含人类情感和情绪,这可能是使CLIP成为人类判断特别强大的先验的原因。作者应用了最小化的任务特定调整,旨在在保留CLIP强大的感知先验的同时,允许必要的任务特定灵活性。令人瞩目地是,这个轻量级且有效的框架产生了在3个重要感知任务上实现最先进性能的模型,并展示了令人印象深刻的跨数据集泛化能力。这表明,对于建模感知任务,复杂的任务特定设计和知识并非必不可少。

参考

[1]. Don't Judge Before You CLIP: A Unified Approach for Perceptual Tasks

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论