LVAFusion用先验注意力精准融合激光雷达与图像,攻克模态错位难题

大模型机器学习算法

多模态融合现在的确是个香饽饽,但要想发顶会顶刊,也不是随便搞搞就行的。正好近期我整理了不少多模态融合的工作,都是精挑细选的高质量成果。如果你正在找选题,那这份文献包真的可以保存下来!

目前我已经整理了157篇paper,除论文源码外,还有一份代码库,拿来搭建模型省时省力。另外为了方便理解,我按照基础→架构→应用→方法论这个逻辑把这些论文分成了四大类,又根据其核心贡献的性质划分为了7个子方向、16个细分方向。(看下图)

picture.image

扫码 添加小享,回复“多模态融合25

免费获取全部论文+经典模型+代码库

picture.image

这其中,医学多模态、多模态情感识别等方向算是比较容易出成果的,大家感兴趣可以试试,以下是部分内容展示:

一、基础融合方法类

跨模态/跨任务通用的融合“底层逻辑”,是所有融合研究的基础策略。

多模态特征融合

通用方法:早期/中期/晚期融合、特征对齐与融合

FedEPA: Enhancing Personalization and Modality Alignment in Multimodal Federated Learning

方法: FedEPA 是一种新型多模态联邦学习框架,通过个性化加权本地聚合策略适配客户端数据异质性,采用基于特征分解的无监督模态对齐方法优化多模态特征表示,再借助自注意力机制的多模态特征融合策略动态整合模态间相关信息与各模态上下文特征,以提升有限标签数据下多模态分类任务性能。

picture.image

创新点:

  • 设计个性化加权本地聚合策略,利用客户端标注数据学习聚合权重,适配各客户端数据异质性。
  • 提出无监督模态对齐方法,将多模态特征分解为对齐特征与上下文特征,通过多重约束优化特征表示。
  • 采用自注意力机制的多模态融合策略,动态整合跨模态相关信息与各模态上下文特征。

picture.image

二、架构与模型创新类

通过优化模型结构或融合机制,提升融合效率和效果。

多模态融合+注意力机制

聚焦关键模态信息,抑制冗余

M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving

方法: M2DA 是面向自动驾驶的多模态融合Transformer方法,通过注意力机制驱动的LVAFusion模块融合激光雷达与多视角图像的互补特征,同时融入驾驶员注意力信息作为掩码调整图像权重,实现类人场景理解与高效多模态感知,提升自动驾驶安全性与场景适配能力。

picture.image

创新点:

  • 提出LVAFusion模块,通过带先验信息的查询与交叉注意力,融合图像和激光雷达特征,解决模态错位问题。
  • 将驾驶员注意力融入自动驾驶,以注意力掩码调整图像权重,实现类人场景理解。
  • 设计多查询Transformer架构,同步预测车辆路径、周围目标感知信息和交通状态。

picture.image

扫码 添加小享,回复“多模态融合25

免费获取全部论文+经典模型+代码库

picture.image

三、任务与领域应用类

融合技术落地到具体任务或场景,解决实际问题。

医学多模态

医疗场景:影像+临床文本、影像+基因数据

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning

方法: MMGPL 是一种面向神经疾病诊断的医学多模态图提示学习方法,通过多模态数据令牌化将 MRI、PET 等医学模态映射到共享令牌空间,借助 GPT-4 生成疾病相关概念并基于语义相似度调整令牌权重以弱化无关补丁影响,再通过概念嵌入构建令牌间图结构并利用 GCN 提取脑网络结构信息,以此提示预训练多模态模型实现精准诊断。

picture.image

创新点:

  • 借助 GPT-4 生成疾病相关概念,通过计算令牌与概念的语义相似度调整令牌权重,弱化神经影像中无关补丁的干扰。
  • 基于概念嵌入构建令牌间的图结构,利用 GCN 提取脑网络结构信息,将图作为提示融入预训练多模态模型。
  • 设计多模态数据令牌化模块,将 MRI、PET 等不同医学模态映射到共享令牌空间,高效适配多模态医疗数据。

picture.image

四、融合方法论创新类

从“学习范式”或“过程优化”角度,解决融合的核心痛点(如模态不平衡、不可解释)。

迁移学习+多模态融合

用跨领域/跨模态知识,解决模态数据不平衡、样本不足

MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion

方法: MoPE 是一种基于迁移学习的参数高效多模态融合方法,通过引入提示专家混合框架,利用预训练单模态模型的迁移能力,动态生成实例特定提示,结合静态、动态和映射三类分解提示,在仅需 0.8% 可训练参数的情况下实现高效多模态融合,性能媲美全微调。

picture.image

创新点:

  • 提出实例自适应提示分解,将统一提示拆分为静态、动态和映射三类,分别适配全局、实例和跨模态细粒度信息。
  • 设计提示专家混合模块,通过多模态路由器和软路由生成实例特定提示,以专家扩展提升表达能力。
  • 引入正则化策略,冻结路由嵌入并添加重要性损失,促进专家专业化,避免少数专家主导。

picture.image

扫码 添加小享,回复“多模态融合25

免费获取全部论文+经典模型+代码库

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论