大模型时代的即插即用模块 | 从注意力机制到多模态应用,全面助力效率与性能的提升

机器学习算法人工智能与算法

为方便各位将宝贵的时间和计算资源都集中在最核心的创新点上,避免重复造轮子。我收集并整理了176个即插即用模块,基本覆盖了各种场景所需。

这些模块已经按照通用模块,以及各任务专用模块做好了分类,能帮你在有限时间内快速推进实验、验证思路,同时降低研究门槛。

目前比较热门的注意力机制、卷积、采样模块、频域、特征融合、ffn等都包含在内,最新的经典的也都有。建议各位都拿一份看看,因为学会利用和改造这些模块,也是取得成功的关键~

picture.image

扫码添加小享, 回复“ 2025即插即用

免费获取全部即插即用模块(论文+源码)

picture.image

通用模块(跨任务/跨领域可复用)

核心特点:不绑定具体任务,能直接嵌入不同模型架构或不同领域,比如注意力机制、卷积模块、归一化、特征提取、特征融合、多尺度融合、轻量化、KAN、扩散模型等。

部分模块原文:

【MICCAI 2025】U-RWKV: Lightweight medical image segmentation with direction-adaptive RWKV

方法: 论文提出 U-RWKV 轻量化医学图像分割框架,核心是引入可即插即用的方向自适应 RWKV 模块与阶段自适应挤压激励模块,结合 U 型编解码器,以 O (N) 计算成本高效建模长距离依赖、平衡细节与语义捕捉,提升分割性能,适用于资源受限场景。

picture.image

创新点:

  • 提出U-RWKV轻量化框架,基于RWKV架构以O(N)计算成本实现高效长距离依赖建模,适配资源受限场景。
  • 设计DARM模块,通过双RWKV和四向扫描,减少方向偏差并保留全局上下文。
  • 引入SASE模块,早期用扩张倒瓶颈保高分辨率特征,深层用紧凑瓶颈+深度可分离卷积,动态适配不同特征提取阶段。

picture.image

【CVPR 2025】A Universal Scale-Adaptive Deformable Transformer for Image Restoration across Diverse Artifacts

方法: 论文提出尺度自适应可变形 Transformer(SADT)用于多种图像结构化伪影去除,核心是引入可即插即用的尺度自适应可变形注意力模块,搭配尺度增强可变形卷积模块,高效完成去摩尔纹、去雨、去条带等任务。

picture.image

创新点:

  • 设计SEDC模块,通过级联可变形卷积和并行SCMC,处理伪影的尺度、方向及形状变化。
  • 提出可即插即用的SADA模块,以多尺度多头机制和可变形采样偏移,捕捉伪影长距离上下文并处理其非均匀分布。
  • 构建SADT架构,结合MIMO设计与多尺度损失,高效完成去摩尔纹、去雨、去条带任务。

picture.image

扫码添加小享, 回复“ 2025即插即用

免费获取全部即插即用模块(论文+源码)

picture.image

各任务专用模块(绑定特定任务痛点)

核心特点:为解决某类任务的独特需求设计(如3D任务需处理点云结构、超分需提升分辨率),比如上采样、图像分割、目标检测、人体姿态估计、点云、时序、多模态等。

部分模块原文:

TSLANet: Rethinking Transformers for Time Series Representation Learning

方法: 论文提出轻量级TSLANet模型用于时间序列分析,核心是引入可即插即用的自适应频谱块(ASB)和交互式卷积块(ICB,以双分支卷积交互建模依赖),搭配自监督预训练,高效完成时序分类、预测等任务。

picture.image

创新点:

  • 提出可即插即用的自适应频谱块,借傅里叶变换转时序为频域,用自适应阈值去噪,再融合全局与局部滤波特征,捕捉长短期依赖。
  • 设计可即插即用的交互式卷积块,以双分支不同核大小的1D卷积交互,增强复杂时序模式捕捉能力。
  • 构建轻量级TSLANet,整合ASB与ICB,搭配自监督预训练,在时序分类、预测等任务表现好,且计算复杂度低。

picture.image

SimVP: Simpler yet Better Video Prediction

方法: 论文提出可即插即用的SimVP视频预测模型,完全基于CNN,以“编码器-转换器-解码器”架构提取空间特征、学习时序演变并重建帧,仅用MSE损失端到端训练,无需复杂模块与策略,在多数据集实现SOTA性能且训练成本低。

picture.image

创新点:

  • 提出SimVP视频预测模型,全基于CNN的“编码器-转换器-解码器”架构,不用复杂模块,靠基础CNN处理空间特征和时序。
  • 仅用MSE损失端到端训练,无复杂策略,在五数据集达SOTA,还降低训练成本。
  • 泛化性好、预测灵活,跨数据集表现优,能适配不同长度视频预测且性能衰减少。

picture.image

扫码添加小享, 回复“ 2025即插即用

免费获取全部即插即用模块(论文+源码)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论