LeViT-UNet:transformer 编码器和CNN解码器的有效整合

人工智能与算法大数据云渲染与流化平台

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

作者丨Golnaz Hosseini 来源丨DeepHub IMBA 编辑丨小书童

LeViT-UNet架构

levi - unet的编码器使用LeViT块构建,设计用于高效和有效地学习全局特征。解码器是使用卷积块构建的。

picture.image

编码器从多个分辨率的输入图像中提取特征映射。这些特征映射被上采样,连接然后通过跳过连接传递到解码器。跳过连接允许解码器从编码器访问高分辨率的局部特征,有助于提高分割性能。

这种设计使模型能够综合transformer 和cnn的优点。transformer 刚擅长学习全局特征,而cnn擅长学习局部特征。通过结合这两种方法,levi - unet能够获得良好的分割性能,同时也相对高效。

LeViT编码器

编码器采用LeViT[1],主要由两个部分组成:卷积块和变压器块。卷积块通过对输入图像应用4层3x3卷积(步幅为2)来执行分辨率降低。在提取更多抽象特征的同时,这将图像的分辨率降低了一半。然后transformer块获取卷积块的特征映射并学习全局特征。

在编码器的最后阶段将来自卷积块和变压器块的特征连接起来。这使得编码器具有本地和全局特性。局部特征对于识别图像中的小而详细的物体很重要,而全局特征对于识别图像的整体结构很重要。通过结合局部和全局特征,编码器能够生成更准确的分割。

根据输入第一个transformer块的通道数量,开发了3个LeViT编码器:levi -128s, levi -192和levi -384。

picture.image

CNN解码器

levi - unet的解码器将编码器的特征与跳过连接连接在一起。使得解码器能够从编码器访问高分辨率的局部特征,并采用级联上采样策略,利用cnn从前一层恢复分辨率。它由一系列上采样层组成,每个上采样层后面是两个3x3卷积层,一个BN和一个ReLU层。

实验结果

实现细节:数据增强(随机翻转和旋转),优化器(Adam,学习率1e-5,权重衰减1e-4),图像大小224x224,批大小8,epoch 350和400用于Synapse和ACDC数据集

LeViT模型优于现有模型,并且明显快于TransUNet,后者将Transformer块合并到CNN中。

picture.image

上图显示了TransUNet、UNet、DeepLabv3+和levi -UNet四种不同方法的定性分割结果。其他三种方法更可能导致器官不足或者过度分割。例如,胃被TransUNet和DeepLabV3+分割不足(如上行第三个面板的红色箭头所示),被UNet过度分割(如第二行第四个面板的红色箭头所示)。

与其他方法相比,论文提出的模型输出相对平滑,表明在边界预测方面更具优势。

picture.image

2篇论文:

[1] Benjamin Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Herv’e J’egou, Matthijs Douze, LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference, 2021

https://arxiv.org/abs/2104.01136

[2] Guoping Xu, Xingrong Wu, Xuan Zhang, Xinwei He, LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation, 2021

https://arxiv.org/abs/2107.08623

picture.image

[picture.image

中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 4.2K+星](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247510510&idx=2&sn=d2114e80230c0be452d2e9155a9c7cca&chksm=feb84950c9cfc046b694045b5c3aeff6d2764b979073881d2aef462ecc4224f9ae7f94e57a06&scene=21#wechat_redirect)

[picture.image

医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247510476&idx=1&sn=ad78a4fabce7426033dc7dfaca2a6923&chksm=feb84972c9cfc064775ca0466b5923c6c2233e3c7240266cf22bbffe7c946e587c308ea354ac&scene=21#wechat_redirect)

[picture.image

UNet家族迎来最小模型U-Lite | 800K参数实现性能极限超车](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247510418&idx=1&sn=ecf06432a293067ddd8dcb367bbcc80f&chksm=feb8492cc9cfc03a5e7dad4ec7dbccbd28908411a4fe12c10325c0974d2433233855a5f8b13c&scene=21#wechat_redirect)

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论