OU-CoViT 具有图像双重适应功能的 Copula 增强型双通道多任务 VisionTransformers ！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

使用尖端超宽场（UWF）眼底摄影和联合建模多个离散和连续的临床评分对近视筛查提出了一种有前途的新范式。这两种眼睛（OU）的眼科现象中产生的“单眼不对称性”的生物双通道框架需要新的应用在现有的基于SOTA Transformer 的模型上。然而，将copula模型用于深度学习（DL）中的多个混合离散-连续标签的应用具有挑战性。

此外，将先进的基于 Transformer 的模型应用于小医疗数据集也具有挑战性，因为容易过拟合和计算机资源限制。为了解决这些挑战，作者提出了OU-CoViT：一种新颖的Copula-Enhanced生物双通道多任务视觉 Transformer ，具有双重自适应应用于OU-UWF图像，它能够：

i）通过推导新 Copula 损失，在深度学习框架内整合多个离散和连续标签之间的条件相关性；

ii）采用双通道模型且具有双重自适应，接受 OU 输入，受到高度相关性和眼肌不对称性影响；

iii）使大型视觉 Transformer （ViT）模型适应小医疗数据集。扎实的实验表明，与单通道 Baseline 模型相比，OU-CoViT显著提高了预测性能。

此外，OU-CoViT的新颖架构允许作者将其双适应和 Copula 损失扩展到各种 ViT 变体和小型医疗数据集中的大DL模型。

作者的方法开启了在医疗实践中联合建模异质多通道输入和混合离散-连续临床评分的新可能性，具有在眼科以外的各种医学领域的临床决策辅助AI方面的发展潜力。

Introduction

近视是一种全球性的公共卫生问题[16]。通过有效的筛查程序进行早期发现和干预对于防止近视的进展以及与之相关的并发症至关重要[20]。传统的筛查方法依赖于侵入性、耗时的评价和熟练的专业人士[14]。近年来，非侵入性超广角（UWF）眼底成像技术为近视筛查开辟了新的可能性，它提供了一个宽广的200°视角，能够检测到与近视相关的一丝不苟的变化[6]。UWF图像与深度学习的结合有可能通过自动化过程并提高其精确度和效率，从而改变了农村地区缺乏专业眼科医生和医疗资源的远程医疗应用[1]。然而，目前对于近视筛查的深度学习模型存在多个限制：

首先，在眼科的深度学习应用中，预测离散和连续的临床评分，如二分高度近视（HM）状态和轴性长度（AL）在眼科[17, 15, 14]中具有重要意义。然而，现有的工作只关注于一个标签的预测，而忽视了它们固有的高相关性。最近的研究[16]和[15]表明，联合建模相关标签可以提高深度学习模型的预测能力，并利用跨标签的条件相关信息。然而，前者仅可以模型两个标签，后者可以处理连续标签。对于多个混合离散-连续标签，一个关键的挑战是制定一个对于深度学习训练框架可行且能同时表征标签的复杂的条件相关结构[27]。据作者所知，作者首次解决了这个问题，并成功地应用于UWF图像数据集。

其次，现有的工作很少考虑“双眼不对称性”在Oculus Uterque（OU，两眼）建模[13]。双眼不对称性[13]指的是左眼（OS）和右眼（OD）之间的特征不对称或单侧。这意味着同一个患者从左眼和右眼获得的双眼图像可能包含关于近视状态不一致的信息。研究表明，将双眼不对称性纳入单眼分析中可以减少统计偏差并提供有关视网膜疾病[26, 17]的额外信息。然而，在深度学习模型中建模OU是一个挑战，因为输入的OU图像受双眼不对称性的影响强烈相关且表现出异质性。作者的解决方案是开发一个新颖的双线性模型，它能够同时保留OU的常见特征并独立地学习眼内的异质性。

第三，由于获得和标注医学图像的难度和费用，数据量的限制阻碍了SOTA视觉Transformer（ViT）及其变体的进一步应用在医学数据集[13]上。如果数据量远小于模型大小，过拟合和计算资源限制将成为严重问题。为了解决这些问题，作者采用了一种从迁移学习中的想法，并对预训练模型（例如ImageNet）进行了适应性的调整并在作者的小型UWF数据集上进行了微调。这种技术利用了大量数据集的知识，减少了过拟合的风险，并且与从零开始训练相比，减轻了计算负担。

通过解决以上的局限性，作者提出了一个新颖的框架OU-CoViT：双通道视觉 Transformer CoViT与双眼适应性。该模型包括三个关键的创新：

利用导出封闭形式的联合密度，可以计算四维分类-回归任务的计算效率，从而捕捉标签之间的条件依赖结构。
提出一个新颖的双通道架构，具备双适应性和共享的背部，可以同时建模异质性（双眼不对称性）和高相关性（多通道输入）。
在作者的双通道模型中，采用基于低秩适应（LoRA）的ViT在Ophthalmology AI实践中使用，解决使用大型变体和小型医学数据集的问题。

作者在UWF眼底图像数据集上评估了OU-CoViT的性能，并表明其优于单眼基础模型。此外，作者的双眼适应性和Copula损失函数可以轻松地扩展到其他 Transformer 变体和深度学习模型。作者的方法不仅为多任务学习中联合建模离散和连续标签之间的关系开辟了新的可能性，而且还有潜力在眼科之外的各种医学领域推进AI辅助的临床决策。

Related work

深度学习与UWF视网膜成像

近年来，深度学习技术已广泛应用于UWF视网膜成像，因为它可以根据全息视网膜图像进行更好地检测和监测外围视网膜疾病。已经提出的许多深度学习方法主要侧重于预测和检测视网膜疾病，其主要关注疾病的诊断、分类和分割[13, 14, 15, 16]。相反，对近视直接预测的研究较少，仅有一些近视筛查模型已经开发出来，其中大多数仅关注二分类问题[25, 17]。

Methods

所提出的 OU-CoViT 具有两个核心组件，即 Copula Loss 和双适应。OU-CoViT 通过三个模块实现，如图1 所示。作者在本节中分别介绍这两个核心组件，并在详细部分介绍 OU-CoViT 的整体架构。

picture.image

（此处为模拟分段阅读，您可以根据需要进行调整）对应于 OS AL 和 OD AL，而分别对应 OS 高近视状态和 OD 高近视状态（1：近视；0，否则）。作者设 \mathcal{X}\in\mathbb{R}^{224\times 224\times 3}$ 为 UWF 图像预测器。作者有以下生成模型

其中表示将预测器与标签相关联的未知回归函数。

作者采用 Copula 模型 [20] 捕获由给出的条件相关性。通常，维 Copula 是一个在上定义的参数函数，满足联合分布

其中表示的第个边际累积分布函数（CDF）对于。具体而言，在本论文中，作者考虑了高斯 Copula 模型

其中是具有相关矩阵的维高斯分布的 CDF，是标准正态分布的逆 CDF。

4 维 Copula Loss 通常用于多元回归-分类任务的经验损失为 MSE 和交叉熵，它们等于边缘模型的负对数密度（1）。然而，这些损失忽略了由给出的条件相关性。因此，基于高斯 Copula 模型（2）的损失是需要的。根据模型（2），joint 密度的通用形式为 [19]。

其中 , , 是在处的的左导数，并且

其中和。然而，积分表达式 (4) 非平凡，阻碍了深度学习的训练，尽管 [17] 提供了一般高斯copula下似然度的方便计算，但他们的方法在反向传播过程中引入了无穷大，因此不能用于训练深度学习模型。为了解决这个问题，以下定理提供了联合密度 (3) 的闭合形式。证明见附录。定理1 ：设 , , , 和。让

是对应于高斯 copula (2) 的相关矩阵。那么对数联合密度 (3) 的闭合形式是

其中，为常数，的值列在附录材料中的第3节表1中。

picture.image

最后，Copula Loss 是负对数似然度，因此根据定理1，作者得到

Copula 参数的估计 Copula Loss (6) 由参数化，直接优化学习难度较大。然而，在高斯copula 下，它们都有明确的统计含义。因此，在此处详细介绍它们的估计过程。

首先引入连续和离散响应的 Gaussian 分数的定义。

定义1 ：设是一个二进制随机变量。假设有潜在的标准高斯变量，满足。作者称为的 Gaussian 分数。

定义2 ：设是一个连续随机变量，它的 CDF 是。作者称为的 Gaussian 分数。

定理1推导出以下命题。证明从略。

命题1 ：设随机变量的对数联合密度符合 (5)，相关矩阵为：

是一个具有参数的随机向量对。

命题1告诉作者，在高斯copula 下，Gaussian 分数之间的相关性与copula的相关结构相同，因此，使用 Gaussian 分数之间的皮尔逊相关性来估计协方差矩阵是合理的。

即

其中，是归一化的残差。

根据定义，和分别对应和的边缘方差，因此，通过它们边缘残差的样本标准差来估计是合乎逻辑的。

Dual adaptation

作者提出了一个新颖的双适应双通道结构，以解决深度户外图像的眼间不对称问题以及小型UWF数据集的挑战。受先前文献的启发，作者采用了两种适应方法：源自自适应Former（Chen等人，2022年）的 Adapter 以及LoRA（Hu等人，2021年）。Adapter 捕捉到眼间不对称产生的异质信息，而LoRA使得在大规模ViT上实现迁移学习成为可能。图1(a)和图1(b)说明了作者的双适应方法以及双通道结构与传统单通道 Transformer 块的比较。

Adapter modules for interocular asymmetries

UWF图像的左右眼睛联合建模最早由 (Li等人,2024年)在眼科中共同提出，他们可能是第一个在DL模型中采用双通道结构的生物。Adapter 结构最早出现在 (Houlsby等人,2019年)。最近这个经典而简单的设计在许多适应性方法中得到了广泛应用。作者为ViT采用了一种新的双通道结构，以适应来自OU输入的高相关性和双眼不对称性。与传统方法相比，作者的框架旨在通过共享 Backbone 模型的参数来保留OU之间的最大常见特征，同时允许稍微不同的 Adapter 学习每个眼睛的异质信息。

作者为左右眼睛分别构建了 Adapter 模块（OS Adapter 和OD Adapter ），并让它们共享 Backbone 模型。图1（b）显示了OS和OD Adapter 的详细结构。在训练过程中， Adapter 同时更新与 Backbone 模型。作者将OS和OD Adapter 以类似AdaptFormer的方式插入到 Transformer 块中的MLP模块。

这种方法具有以下几个优点：

1）不同变体的 Transformer 的多头自注意力模块通常具有不同的结构，但它们的MLP模块相似。这意味着作者的 Adapter 模块可以插入到ViT之外的 Transformer ；

2）眼睛之间的不对称信息通常反映疾病严重程度或进展的差异，而不是同一疾病完全不同表现的形式。因此，通过多头自注意力进行特征提取可以共享，而OU之间的特征转换应略有不同；

3）这是一种简单而经典的设计，使得医学研究行人可以轻松实现，并为进一步的研究提供了便利。

LoRA for transfer learning

将大型模型应用于小型数据集，作者采用LoRA来调整作者的双通道ViT。LoRA的核心思想是将预训练模型的权重冻结，并将其可训练的低秩分解矩阵集成到Transformer结构的每个层中，这可以大大减少可训练参数的数量。

在作者的方法中，作者将LoRA应用于有效的自适应基础大小模型，该模型在ImageNet-21k [23, 24]上进行预训练。如图1(b)所示，作者将LoRA应用于多头自注意力（MHA）模块，使用蓝绿色区分冻结和可训练参数。将LoRA应用于MHA模块的优势在于现有软件支持的成熟度，使医学研究行人能够使用LoRA与各种Transformer变体配合使用。此外，作者选择了基础大小的ViT，因为它可以方便地供医学研究行人使用，并且可以加载在一张GTX4090卡上。

End-to-end OU-CoViT

OU-CoVit 包含三个模块：(i) 一个 Warm up 模块，该模块使用经验损失（交叉熵损失和均方误差损失对于作者实验中）训练基础的双通道ViT；(ii) 一个 Copula 估计模块，该模块基于 Warm up 模块的输出估计 Copula Loss 中的参数；(iii) OU-CoViT 模块，该模块使用在模块 2 中估计的 Copula 参数训练基础的双通道ViT。作者在附录中的 Algorithm 1（Supplementary Materials）中概括了 OU-CoViT 中每个步骤。

对于模型（1）产生的标签，模块 1 提供最大似然估计器和。得到的残差和高斯分数随后被导入模块 2，以估计 Copula 参数。最后，在模块 3 中，作者使用在模块 2 中估计的 Copula 参数训练基础的双通道ViT。在模块 3 的训练过程中，OS 输入经过 LoRA 和 OS Adapters 的 transformer 块，而 OD 输入经过 LoRA 和 OD Adapters 的 transformer 块。每个训练迭代涉及输入双眼视力相同的人眼图像。随后，来自双眼的结果用于计算 Copula 损失，然后进行反向传播以完成一个训练迭代。注意，Copula 损失不需要依赖于基础模型的任何特定架构。

Experiments

在本文节中，作者评估了双适应变分图卷积神经网络（Double Adaptive Convolutional Variational Transformer，简称OU-CoViT）的性能。作者研究了它是否能通过提取条件相关性信息来提高基准模型，并解决单眼不对称的问题。作者进行了一系列的消融实验，以验证OU-CoViT的有效性，并理解其各项组成部分的影响。

数据集：数据收集过程涉及使用Optomap Daytona扫描激光眼科成像仪（Optos，英国）从2614名患者的眼睛中捕获5228张视网膜图像。所有入组的病人都接受了视力矫正治疗，且全部是近视患者。数据收集期从2014年12月至2020年6月，在复旦大学眼耳鼻喉科医院进行。在研究中获得的视网膜图像以JPEG格式导出并压缩至224 x 224像素分辨率，以便后续分析。

实验设置和评估指标：5228个视网膜图像数据集被分为训练集、验证集和测试集，比例为6:2:2。为减少模型评估中的偏见并获取更可靠的结果，使用了5倍交叉验证。由于LoRA中的排名r严重影响可训练参数的数量和模型性能，作者分别测试了r=4,8,16的结果。作者限制r的最大值为16，因为较大的值导致可训练参数过多，使ViT模型在作者的UWF数据集上过拟合。作者计算连续标签的均方误差（MSE），以及离散标签的交叉熵（CE）和面积（AUC）。具体来说，比较了每个LoRA排名r=4,8,16的结果：1）针对每个LoRA排名r，比较了基本ViT（带有LoRA）之间的平均AUC、交叉熵（例如，AUC HM OS/OD，交叉熵 HM OS/OD，MSE AL OS/OD）；2）比较了针对每个LoRA排名r，带有插入模块(例如，AUC HM OU，交叉熵 HM OU，MSE AL OU)的基准ViT（带有LoRA）和所有眼部适应模块（例如，AUC HM OS/OD，交叉熵 HM OS/OD，MSE AL OS/OD）。

作者将ViT+LoRA（基准模型）、ViT+LoRA+ Adapter （仅有双适应）、ViT+LoRA+ Copula Loss（仅有 Copula Loss）、ViT+双适应+ Copula Loss（OU-CoViT）四组模型进行了比较，以展示作者提出的新模块或新组件的有效性并作出重要贡献。对带有LoRA的基准ViT，由于没有 Adapter 模块，双通道模型被简化为单通道ViT，可以被视为单眼模型。

实现细节：作者使用在ImageNet-21k [22, 23]上预训练的ViT基大小的模型进行训练。作者在模块1中用20个周期训练 Backbone 模型，而在OU-CoViT中用15个周期。由于内存限制，批次大小为32。使用Adam [10]优化，初始学习率为1e-4，并在第10个周期后将其降低到1e-5。从医学角度来看，双眼不对称引起的异质性相对较小，尽管不能忽略。因此， Adapter 的中间维度Δt被设置为小值Δt=1。

对于插入层的选取和 Adapter 模块的缩放因子，作者遵循了AdaptFormer的推荐 [2]，其中 Adapter 被插入到每个变分器块中，缩放因子设置为0.1。所有实验都在单个RTX 4090 24GB卡上进行。

总之，本文通过实验表明，作者提出的每一个创新模块/组件都是有效且作出了重要贡献。这有助于提高基准模型的性能，并解决了单眼不对称问题。

Results on UWF dataset

在本节中，作者提出了作者实验的结果，以评估作者提出的OU-CoViT框架在不同指标和配置下的性能。图3提供了ViT与LoRA（基准模型），ViT + LoRA + Adapters（双自适应结合）ViT + LoRA + Copula Loss（仅Copula损失），和ViT + 双自适应 + Copula Loss（OU-CoViT）在不同的LoRA秩参数r=4,8,16之间的全面比较。值得注意的是，更高的AUC结果更好，而较低的交叉熵和MSE是可取的。结果显示，OU-CoViT在所有三个秩中，大致上都能提升仅基准模型的绩效或者仅引入自适应和Copula Loss后的基准模型和 Backbone 网络的性能。同时，秩r增加，整体性能会有略微提升，因为LoRA模型中的高秩引入了更多的可训练参数，从而使得模型的预测能力更强。

picture.image

对于回归结果，双自适应，Copula Loss，以及OU-CoViT，均显著提高了AL的MSE。在这其中，OU-CoViT提供了最强的增强。对于分类结果，OU-CoViT在交叉熵上显示了显著提升，最大的增益出现在r=4。尽管AUC的提升并不明显，但仍然明显。双自适应和Copula Loss单独地提升了交叉熵；它们在AUC上的改进在r=4时最为显著。因此，作者可以得出结论，无论是单独使用还是结合使用，自适应和Copula Loss都能增强基准模型的预测能力。在OU-CoViT中结合使用两种方法时，获得的提升最大。值得注意的是，对于近视筛查预测，OU-CoViT的平均AL MSE超过了使用ResNet作为 Backbone 网络的同源数据集上的先前结果[10]（1.153 vs. 1.719）。这表明，迁移预训练的大型ViT模型的基础性能可能显著优于传统的CNN模型。

Ablation study

为证明Copula Loss的推广性，并证明它能够应用于各种深度学习（DL）模型，作者在ViT大型模型[22, 23]以及简化版的ResNet[10]上测试了其有效性。作者的目标是看看Copula Loss是否能够提高这些 Backbone 模型的预测能力。表1中的结果表明，Copula Loss的加入显著提高了均方误差（MSE），而Copula Loss的引入稍微提高了分类任务。

为了证明适配模块位于 Transformer 块中的原因，作者还测试了其他几个常见的适配位置，包括在嵌入层之后，在FFN层之前，以及在不同LoRA层的完全连接（FC）层之前。表2显示，尽管有些适配位置取得了更好的结果，但在所有排名上，作者方法在分类和回归任务中的表现优于其他配置。

picture.image

Discussion

作者成功地在同时利用OU UWF视网膜图像预测眼科四个重要临床评分。作者的成功证明了所提出的OU-CoViT的两个优势：i）提高 Baseline 模型在多混合分类和回归任务上的预测能力；ii）在ViT模型下处理具有高相关性和固有异质性的双通道成像输入。双重自适应和Copula Loss的集成证明了一种稳健的方法，具有其他 Transformer 变体和深度学习模型的一般适用性。

据作者所知，作者的工作是首次将多个离散和连续标签之间的条件相关性信息集成在一起，适用于涉及混合离散-连续任务的多任务学习。作者的Copula Loss也为深度学习中更多样化的相关性建模开辟了新的研究领域。

双重自适应带来的改进表明，基于OU模型的双通道架构具有比基于单通道输入的 Baseline 模型更强大的预测能力。作者的适应方法可以轻松地插入各种 Transformer 变体中，为医学研究行人带来了极大的便利。此外，尽管作者在本研究中只构建了双通道模型，但 Adapter 结构表明作者的框架可以扩展到多通道学习问题。这为处理异质多通道输入提供了一种新颖策略。

与ResNet的结果相比，使用ViT的迁移学习结果明显更好，表明了LORA方法处理将大型模型应用于小医学数据集的挑战具有巨大的潜力。作者的框架不仅限于ViT，可根据不同的医学场景应用于不同的后缘网络。作者展示了一种新的眼科AI实践中的迁移学习方法，为研究行人提供了新的机遇。

作者研究的局限性如下：作者推导的闭式Copula Loss是特定病例的，目前适用于UWF近视筛查模型。然而，这开启了应用和闭式推导在其他领域的新的方向和机会。公式(5)中的含义表明，AL的边缘方差的反函数可以被视为回归任务的损失权重。AL较小意味着较大的权重，因此OU-CoViT更倾向于优化回归损失而不是分类损失。未来可行的方向是改进这种现象，使模型可以更均衡地优化所有标签的损失。

Conclusion

作者的OU-CoViT框架，通过双适应和Copula Loss，在应用到眼科AI的领域中填补了一项空白。它同时使用UWF双眼视网膜图像，相应地构建了一个使用大型ViT模型在小型数据集上进行多分类和回归任务的新框架。全面的实验和消融研究验证了作者的方法的有效性和鲁棒性，为在多种具有挑战性的医学场景中应用奠定了基础。

在小型数据集上使用大型ViT模型进行多分类和回归任务。全面的实验和消融研究验证了作者的方法的有效性和鲁棒性，为在多种具有挑战性的医学场景中应用奠定了基础。

参考

[1].OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」