AI 视界引擎
AI 视界引擎
AI图像处理关系型数据库微服务
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )选择性状态空间模型(SSMs),如Mamba(Gu & Dao,2023),在捕捉一维序列数据中的长期依赖性方面表现出色,但其应用于2D视觉任务仍面临挑战。当前的视觉SSM通常将图像转换为一维序列,并采用各种扫描模式来包含局部空间依赖性。然而,这些方法在有效捕捉复杂图像空间结构和由于扫描路径加长导致的计算成
10
0
0
0
大模型图像处理机器学习关系型数据库
近年来,3D医学分割领域主要由采用卷积神经网络(CNNs)和Transformer-based架构的深度学习模型主导,各有其独特的优势和局限性。CNNs受限于局部感受野,而Transformer受制于其巨大的内存需求和数据饥饿性,使其不适合处理3D医学体积的细粒度信息。因此,在分割3D医学结构的大型医学体积时,卷积全卷积神经网络(如nnU-Net)仍然主导市场。尽管朝着开发具有亚平方时间与内存复杂
5
0
0
0
AI大模型关系型数据库图像处理
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )基于RGB-D数据的平面实例分割是许多下游任务(如室内3D重构)的关键研究主题。然而,大多数现有的基于深度学习的平面实例分割方法仅利用RGB波段的信息,忽视了平面实例分割中深度波段的重要作用。基于EfficientSAM,Segment Anything Model(SAM)的快速版本,作者提出了一种名为P
3
0
0
0
AI大模型机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )状态空间模型(SSMs)如Mamba2是 Transformer 的有前景的替代方案,具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer Backbone 的应用 - 展示了如何在通用弹
6
0
0
0
AI图像处理机器学习关系型数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )许多研究已经证明了基于视觉 Transformer (ViT)的方法在各种计算机视觉任务上具有强大的性能。然而,ViT模型通常很难有效地捕获图像中的高频成分,这对于检测小目标并保持边缘细节至关重要,尤其是在复杂场景中。这种限制在结肠息肉分割任务中尤为具有挑战性,因为息肉在结构、纹理和形状上表现出显著的变异。
7
0
0
0
AI向量数据库关系型数据库图像处理
在非欧几里得空间中进行数据表示已经被证明在实际的数据集上有效,这可以捕捉到数据集中的层次关系和复杂关系。尤其是双曲空间,提供了对层次结构的高效嵌入。本文介绍了一种名为超曲视觉Transformer(HVT)的新颖视觉Transformer(ViT)的扩展,它将超曲几何集成到ViT中。与传统的ViTs在欧几里得空间中运行不同,作者的方法通过利用双曲距离和Mobius变换增强了自注意力机制。这使得可以
13
0
0
0
AI大模型视频服务数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )anything 模型 2(SAM 2)已成为图像和视频物体分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2在进行视频分割时的关键设计是其内存模块,该模块可以从前几帧的物体感知记忆中获取当前帧的预测。然而,其贪心选择内存设计存在“错误累积”问题,即错误的或未检测到的 Mask 会级联并影响后续帧
3
0
0
0
AI大模型算法数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )基于BEV范式的稳定3D目标检测模型,结合时间信息对于自动驾驶系统至关重要。然而,目前的时间融合模型使用卷积层或可变形自注意力,不利于BEV空间全局信息的交换,且计算成本较高。最近,一种专门处理序列的新模型mamba在多个下游任务中展现出巨大的潜力。在本研究中,作者提出了一种基于mamba的BEV 3D目标
14
0
0
0
AI图像处理机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )图像生成模型遇到了与可扩展性和二次复杂性相关的挑战,主要原因是依赖于基于Transformer的 Backbone 网络。在本研究中,作者引入了一种新颖的混合模型MaskMamba,它结合了Mambo和Transformer架构,使用Masked Image Modeling进行非自回归图像合成。作者仔细重
22
0
0
0
AI图像处理机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )Mask 图像建模(MIM)技术已经 Reshape 了计算机视觉领域,使得预训练模型能够在各种任务上实现出色的性能。尽管它们取得了成功,但基于MIM的方法在密集预测任务中的全部潜力,尤其是在深度估计方面的潜力仍然尚未发掘。现有的MIM方法主要依赖于单张图像输入,这使得捕捉关键结构信息变得具有挑战性,从而导
13
0
0
0
AI容器服务数据安全图像处理
Transformer 在超光谱图像(HSI)分类领域已经取得了令人满意的结果。然而,现有的 Transformer 模型在处理具有多样化土地覆盖类型和丰富光谱信息特征的HSI场景时面临两个关键挑战:(1)固定感受野表示忽略了有效上下文信息;(2)冗余自注意力特征表示。为了解决这些问题,作者提出了一种新颖的选择性 Transformer (SFormer)用于HSI分类。SFormer旨在动态地选
10
0
0
0
AI大模型数据安全机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多:前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」欢迎扫描上方二维
156
0
0
0
音视频智能语音交互图像处理机器学习
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )利用视觉线索将物体定位在图像中的方法在计算机视觉领域得到了广泛应用,但音频作为一种模态在物体识别和定位方面的潜力仍待挖掘。作者提出YOSS(You Only Speak Once to See)方法,利用音频进行视觉场景中物体的定位,称为音频定位。通过对比学习结合多模态对齐,将预训练音频模型与视觉模型集成,
17
0
0
0
AI大模型图像处理数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )Diffusion Transformer (DiT), 一种新兴的图像生成扩散模型, 已经展示了卓越的性能,但 却 遭受了巨大的计算成本。作者的调查发现,这些成本源于不可避免的冗余计算,这种冗余计算出现在某些扩散时间步和空间区域。为了应对这种低效性,作者提出了 Dynamic Diffusion Tran
18
0
0
0
AI图像处理机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )正在出现的Mamba方法成为了一种新颖的方法,可以克服计算机视觉领域中卷积神经网络(CNNs)和视觉 Transformer (ViTs)所面临的挑战。尽管CNNs在提取局部特征方面表现出色,但它们往往在不需要复杂架构修改的情况下难以捕捉长程依赖关系。相比之下,ViTs有效地模拟了全局关系,但由于其自注意力
215
0
0
0
大模型大模型数据库机器学习
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )在本技术报告中,作者提出了Falcon Mamba 7B,一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练,这些 Token 是通过精心选择的数据混合物得到的。作为纯Mamba架构的模型,Falcon Mamba 7B在基于 Transfo
7
0
0
0
AI大模型机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )循环神经网络(RNNs)相对于基于 Transformer 的语言模型,在序列长度方面具有线性的计算复杂度,这使得它们在推理过程中处理长序列的速度更快。然而,大多数公开可用的RNNs(如Mamba和RWKV)都是在小于10K Token 的序列上进行训练,其在更长上下文中的有效性至今仍然不令人满意。在本文中
9
0
0
0
AI机器学习图像处理数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )训练深度模型进行时间序列预测是一项关键任务,具有固有的时间复杂度挑战。尽管当前方法通常确保线性时间复杂度,但作者对时间冗余性的观察表明,高层特征的学习速度比低层特征慢98.44%。为了解决这个问题,作者提出了一种新的指数加权随机梯度下降算法,旨在在深度学习模型中实现常数时间复杂度。作者证明了这种学习方法的理
9
0
0
0
AI图像处理关系型数据库云安全
指示性目标的分割有助于对光学相干断层扫描血管造影(OCTA)样品的精确分析。现有的分割方法通常在2D投影目标上运行,这使得通过3D体积捕捉被分割物体的变异性的挑战变得困难。为了应对这一限制,采用了低秩自适应技术来微调Segment Anything Model(SAM)版本2,使得可以跟踪并跨越OCTA扫描层序列对指定物体进行分割。为了进一步推广这项工作,作者提出了一种提示性点生成策略在帧序列中,
17
0
0
0
AI图像处理机器学习数据库
点击下方卡片,关注 「AI视界引擎」 公众号( 添加时备注:方向+学校/公司+昵称/姓名 )本文提出了一种新颖的架构,将KAN网络与U-Net相结合,利用KAN网络的强大非线性表示能力和U-Net的固有优势进行医学图像分割。作者引入了KAN-卷积双通道结构,使模型能更有效地捕捉局部和全局特征。作者探索了将KAN提取的特征与卷积层获取的特征进行融合的有效方法,并利用辅助网络促进这种融合过程。在多个数
12
0
0
0