多模态融合重磅升级,今年必将迎来大爆发,成为顶会发文利器,伙伴们一定别错过!
一方面,以往的多模态融合,主要是静态视角,如今迎来了颠覆式创新-——动态多模态融合。其代表模型更是取得了计算成本直降50%的显著效果。另一方面,随着大模型的发展,融合方法也迎来了变革。ViT Decoder Transformer结构成为了审稿人的心尖宠。
尤其值得一提的是,今年还出现了多模态融合的新范式:与混合专家模型结合。既解决了传统融合方法的效率问题,又非常适配复杂的模态交互场景!
为让大家能够紧跟领域前沿,找到更多idea启发,我给大家整理了127种创新思路和源码。主要按照“改进和结合”两种方式给大家归类。还额外给大家配了一个多模态专用代码库。
扫描下方二维码,回复「多模态融合25」
免费获取全部论文合集及项目代码
改进类
Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
内容:文章提出了一种基于多模态变换器的框架,通过结合文本和视觉信息从视频数据集中生成自然语言描述。该框架利用 ResNet50 提取视频帧的视觉特征,并将其输入基于 GPT-2 的编码器 - 解码器模型,通过多头自注意力和交叉注意力技术对齐文本和视觉表示,以生成高质量描述。在 MSVD 和 BDD-X 数据集上的实验表明,该框架在 BLEU、CIDEr、METEOR 和 ROUGE-L 等评估指标上优于传统方法,为可解释 AI 领域的发展做出了贡献。
结合类
M3amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification
内容:本文介绍了 M3amba,一种新型的基于 CLIP 驱动的 Mamba 模型,用于多模态融合。该模型通过引入 CLIP 驱动的模态特定适配器和 Cross-SS2D 模块,解决了遥感领域多模态融合中语义信息不完整和计算效率低的问题。实验表明,M3amba 在多模态高光谱图像分类任务中平均性能提升了至少 5.98%,并显著提高了训练效率。
扫描下方二维码,回复「多模态融合25」
免费获取全部论文合集及项目代码
MM-GTUNETS: UNIFIED MULTI-MODAL GRAPH DEEP LEARNING FOR BRAIN DISORDERS PREDICTION∗
内容:本文介绍了一种名为 MM-GTUNets 的多模态图深度学习框架,用于预测脑部疾病。该框架通过动态构建人口图和特征对齐,结合图变换器与多模态注意力模块,有效利用影像和非影像数据,提升了脑部疾病诊断的准确性和可解释性。在 ABIDE 和 ADHD-200 数据集上的实验表明,该方法在诊断自闭症谱系障碍和多动症方面优于现有方法。
M2CD: A Unified MultiModal Framework for Optical-SAR Change Detection with Mixture of Experts and Self-Distillation
内容:本文提出了一个统一的多模态变化检测框架 M2CD,通过集成混合专家(MoE)模块和自蒸馏机制来处理光学和合成孔径雷达(SAR)图像之间的显著模态差异。实验表明,M2CD 在光学-SAR 变化检测任务中优于当前最先进的方法。
RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision
内容:本文提出了一种名为 SAMS-YOLO 的新型多光谱目标检测网络,通过组洗多感受野注意力(GSMA)模块和多模态监督(MS)策略,有效提升了 RGB-T(可见光和热红外)模态下的目标检测性能。GSMA 模块通过多尺度特征提取和组洗操作,实现了 RGB-T 特征的高效融合;MS 策略则通过分别利用可见光、热红外和联合注释进行监督,解决了传统联合注释监督的不公平性问题。实验表明,该方法在 KAIST 和 DroneVehicle 两个具有挑战性的数据集上均取得了当前最佳的性能,同时保持了较高的检测效率。
扫描下方二维码,回复「多模态融合25」
免费获取全部论文合集及项目代码