We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
AI 视界引擎
文章
专栏
问答
AI 视界引擎
融合 Mamba 与 Transformer 优势, R2Gen-Mamba 从卷积到全连接层的特征提取与分类 !
AI
图像处理
关系型数据库
微服务
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )选择性状态空间模型(SSMs),如Mamba(Gu & Dao,2023),在捕捉一维序列数据中的长期依赖性方面表现出色,但其应用于2D视觉任务仍面临挑战。当前的视觉SSM通常将图像转换为一维序列,并采用各种扫描模式来包含局部空间依赖性。然而,这些方法在有效捕捉复杂图像空间结构和由于扫描路径加长导致的计算成
10
0
0
0
AI 视界引擎
Mamba-U-Net,集成 Mamba 模型的 3D图像分割,在标准U-Net中实现精确的 Voxel Level 交互 !
大模型
图像处理
机器学习
关系型数据库
近年来,3D医学分割领域主要由采用卷积神经网络(CNNs)和Transformer-based架构的深度学习模型主导,各有其独特的优势和局限性。CNNs受限于局部感受野,而Transformer受制于其巨大的内存需求和数据饥饿性,使其不适合处理3D医学体积的细粒度信息。因此,在分割3D医学结构的大型医学体积时,卷积全卷积神经网络(如nnU-Net)仍然主导市场。尽管朝着开发具有亚平方时间与内存复杂
5
0
0
0
AI 视界引擎
武大提出 PlaneSAM 使用分割任意模型的多模态平面实例分割 !
AI
大模型
关系型数据库
图像处理
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )基于RGB-D数据的平面实例分割是许多下游任务(如室内3D重构)的关键研究主题。然而,大多数现有的基于深度学习的平面实例分割方法仅利用RGB波段的信息,忽视了平面实例分割中深度波段的重要作用。基于EfficientSAM,Segment Anything Model(SAM)的快速版本,作者提出了一种名为P
3
0
0
0
AI 视界引擎
Matryoshka 与 Mamba2的融合:MatMamba在语言与图像模型上的突破 !
AI
大模型
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )状态空间模型(SSMs)如Mamba2是 Transformer 的有前景的替代方案,具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer Backbone 的应用 - 展示了如何在通用弹
6
0
0
0
AI 视界引擎
基于 Global-Local Vision Transformer的高频信息增强分割 !
AI
图像处理
机器学习
关系型数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )许多研究已经证明了基于视觉 Transformer (ViT)的方法在各种计算机视觉任务上具有强大的性能。然而,ViT模型通常很难有效地捕获图像中的高频成分,这对于检测小目标并保持边缘细节至关重要,尤其是在复杂场景中。这种限制在结肠息肉分割任务中尤为具有挑战性,因为息肉在结构、纹理和形状上表现出显著的变异。
7
0
0
0
AI 视界引擎
从欧几里得到双曲空间,融入视觉 Transformer 增强层次关系建模 !
AI
向量数据库
关系型数据库
图像处理
在非欧几里得空间中进行数据表示已经被证明在实际的数据集上有效,这可以捕捉到数据集中的层次关系和复杂关系。尤其是双曲空间,提供了对层次结构的高效嵌入。本文介绍了一种名为超曲视觉Transformer(HVT)的新颖视觉Transformer(ViT)的扩展,它将超曲几何集成到ViT中。与传统的ViTs在欧几里得空间中运行不同,作者的方法通过利用双曲距离和Mobius变换增强了自注意力机制。这使得可以
13
0
0
0
AI 视界引擎
港中文 & 上海AI Lab 提出 SAM2LONG ,SAM2Long通过约束树形记忆结构提高分割鲁棒性 !
AI
大模型
视频服务
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )anything 模型 2(SAM 2)已成为图像和视频物体分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2在进行视频分割时的关键设计是其内存模块,该模块可以从前几帧的物体感知记忆中获取当前帧的预测。然而,其贪心选择内存设计存在“错误累积”问题,即错误的或未检测到的 Mask 会级联并影响后续帧
3
0
0
0
AI 视界引擎
Mamba还能怎么卷?可加 BEV !MambaBEV 将 Mamba2 引入 BEV 目标检测 !
AI
大模型
算法
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )基于BEV范式的稳定3D目标检测模型,结合时间信息对于自动驾驶系统至关重要。然而,目前的时间融合模型使用卷积层或可变形自注意力,不利于BEV空间全局信息的交换,且计算成本较高。最近,一种专门处理序列的新模型mamba在多个下游任务中展现出巨大的潜力。在本研究中,作者提出了一种基于mamba的BEV 3D目标
14
0
0
0
AI 视界引擎
融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !
AI
图像处理
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )图像生成模型遇到了与可扩展性和二次复杂性相关的挑战,主要原因是依赖于基于Transformer的 Backbone 网络。在本研究中,作者引入了一种新颖的混合模型MaskMamba,它结合了Mambo和Transformer架构,使用Masked Image Modeling进行非自回归图像合成。作者仔细重
22
0
0
0
AI 视界引擎
无需额外标注 ,SG-MIM 实现高效结构知识引导的 Mask图像建模 !
AI
图像处理
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )Mask 图像建模(MIM)技术已经 Reshape 了计算机视觉领域,使得预训练模型能够在各种任务上实现出色的性能。尽管它们取得了成功,但基于MIM的方法在密集预测任务中的全部潜力,尤其是在深度估计方面的潜力仍然尚未发掘。现有的MIM方法主要依赖于单张图像输入,这使得捕捉关键结构信息变得具有挑战性,从而导
13
0
0
0
AI 视界引擎
基于选择性 Transformer 的高光谱图像分类 !
AI
容器服务
数据安全
图像处理
Transformer 在超光谱图像(HSI)分类领域已经取得了令人满意的结果。然而,现有的 Transformer 模型在处理具有多样化土地覆盖类型和丰富光谱信息特征的HSI场景时面临两个关键挑战:(1)固定感受野表示忽略了有效上下文信息;(2)冗余自注意力特征表示。为了解决这些问题,作者提出了一种新颖的选择性 Transformer (SFormer)用于HSI分类。SFormer旨在动态地选
10
0
0
0
AI 视界引擎
中科大提出 D-FINE | 通过 FDR 和 GO-LSD 实现最先进的实时目标检测 !
AI
大模型
数据安全
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多:前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」欢迎扫描上方二维
156
0
0
0
AI 视界引擎
天大、华盛顿大学、哥本哈根大学提出 YOSS 方法,结合视觉与听觉进行物体识别 !
音视频
智能语音交互
图像处理
机器学习
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )利用视觉线索将物体定位在图像中的方法在计算机视觉领域得到了广泛应用,但音频作为一种模态在物体识别和定位方面的潜力仍待挖掘。作者提出YOSS(You Only Speak Once to See)方法,利用音频进行视觉场景中物体的定位,称为音频定位。通过对比学习结合多模态对齐,将预训练音频模型与视觉模型集成,
17
0
0
0
AI 视界引擎
新加坡国立大学/达摩院/清华放出大招 | 动态扩散变换器,FLOPs 减少 51%,生成速度提高 1.73 倍 !
AI
大模型
图像处理
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )Diffusion Transformer (DiT), 一种新兴的图像生成扩散模型, 已经展示了卓越的性能,但 却 遭受了巨大的计算成本。作者的调查发现,这些成本源于不可避免的冗余计算,这种冗余计算出现在某些扩散时间步和空间区域。为了应对这种低效性,作者提出了 Dynamic Diffusion Tran
18
0
0
0
AI 视界引擎
Mamba 模型研究综述 | 从 CNN 到 ViT 再到 Mamba ,推动计算机视觉进步 !
AI
图像处理
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )正在出现的Mamba方法成为了一种新颖的方法,可以克服计算机视觉领域中卷积神经网络(CNNs)和视觉 Transformer (ViTs)所面临的挑战。尽管CNNs在提取局部特征方面表现出色,但它们往往在不需要复杂架构修改的情况下难以捕捉长程依赖关系。相比之下,ViTs有效地模拟了全局关系,但由于其自注意力
215
0
0
0
AI 视界引擎
Falcon Mamba 第一个具有竞争力的无注意7B语言模型 !
大模型
大模型
数据库
机器学习
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )在本技术报告中,作者提出了Falcon Mamba 7B,一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练,这些 Token 是通过精心选择的数据混合物得到的。作为纯Mamba架构的模型,Falcon Mamba 7B在基于 Transfo
7
0
0
0
AI 视界引擎
清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !
AI
大模型
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )循环神经网络(RNNs)相对于基于 Transformer 的语言模型,在序列长度方面具有线性的计算复杂度,这使得它们在推理过程中处理长序列的速度更快。然而,大多数公开可用的RNNs(如Mamba和RWKV)都是在小于10K Token 的序列上进行训练,其在更长上下文中的有效性至今仍然不令人满意。在本文中
9
0
0
0
AI 视界引擎
EW-SGDM 与 Kernel U-Net 的结合,破解时间序列预测中的深度模型时间复杂度难题!
AI
机器学习
图像处理
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )训练深度模型进行时间序列预测是一项关键任务,具有固有的时间复杂度挑战。尽管当前方法通常确保线性时间复杂度,但作者对时间冗余性的观察表明,高层特征的学习速度比低层特征慢98.44%。为了解决这个问题,作者提出了一种新的指数加权随机梯度下降算法,旨在在深度学习模型中实现常数时间复杂度。作者证明了这种学习方法的理
9
0
0
0
AI 视界引擎
SAM-OCTA2 一种高效的OCTA图像层序列与投影分割方法 !
AI
图像处理
关系型数据库
云安全
指示性目标的分割有助于对光学相干断层扫描血管造影(OCTA)样品的精确分析。现有的分割方法通常在2D投影目标上运行,这使得通过3D体积捕捉被分割物体的变异性的挑战变得困难。为了应对这一限制,采用了低秩自适应技术来微调Segment Anything Model(SAM)版本2,使得可以跟踪并跨越OCTA扫描层序列对指定物体进行分割。为了进一步推广这项工作,作者提出了一种提示性点生成策略在帧序列中,
17
0
0
0
AI 视界引擎
KANDU 基于 KAN 和 U-Net结合的新型架构,用于图像分割 !
AI
图像处理
机器学习
数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )本文提出了一种新颖的架构,将KAN网络与U-Net相结合,利用KAN网络的强大非线性表示能力和U-Net的固有优势进行医学图像分割。作者引入了KAN-卷积双通道结构,使模型能更有效地捕捉局部和全局特征。作者探索了将KAN提取的特征与卷积层获取的特征进行融合的有效方法,并利用辅助网络促进这种融合过程。在多个数
12
0
0
0