We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
集智书童
文章
专栏
问答
集智书童
南洋理工提出 Split-Adaptation | 低比特前端+双级噪声守护隐私,小样本适配抗攻击性能领先
AI
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群ViTs在大型数据集上进行了广泛预训练,已成为基础模型的重要组成部分,允许在下游任务上以最小的适应性实现卓越的性能。因此,对在各种领域,包括客户通常不愿共享数据的隐私敏感领域,对预训练ViTs进行适配的兴趣日益增长。现有的适配方法通常需要直接访问数据,这使得在这些约束下不可行。一个简单的解决方案可能是将预训练的ViT发送到客户端进行
8
0
0
0
集智书童
端到端架构黑魔法:ICLR'25 大一统架构的DriveTransformer
AI
大模型
机器学习
算法
尽管目前各大车企都已“调转车头”,投入端到端自动驾驶技术的研发中,但是端到端自动驾驶方案都高度依赖于BEV,严重限制了其Scale Up潜力。 ICLR2025最新收录的一篇论文设计了一套不同于以往Scale Up Vision Backbone算法的,以Decoder为核心的无需BEV的大一统架构。DriveTransformer在一定程度上标志着端到端技术从“依赖特定视角”向“动态自适应”的范
6
0
0
0
集智书童
OmniTrack解决跟踪失真难题 | Tracklet 管理+FlexiTrack定位,性能提升6.8%
云原生
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群全景影像,其360°的视野范围,为支持多目标跟踪(MOT)提供了全面的信息,以捕捉周围物体的时空关系。然而,大多数MOT算法针对的是具有有限视野的针孔图像,这限制了它们在全景场景中的有效性。此外,全景图像的失真,如分辨率损失、几何变形和光照不均,阻碍了现有MOT方法的直接应用,导致性能显著下降。为了解决这些挑战,作者提出了OmniT
6
0
0
0
集智书童
YOLO LwF 破局持续目标检测 | 自蒸馏+重放记忆双引擎,单阶段检测器告别灾难性遗忘
云原生
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群实时目标检测器如YOLO在训练于大型数据集并经过多个epoch后表现出色。然而,在数据增量到达的真实场景中,神经网络会遭受灾难性遗忘,导致先前学习到的知识丢失。为了解决这个问题,先前的研究探索了在持续学习目标检测(CLOD)中的类别增量学习(CIL)策略,其中大多数方法集中于两阶段目标检测器。然而,现有工作表明,由于噪声回归输出可能
24
0
0
0
集智书童
DM-YOLO 小目标检测新SOTA | 轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基于YOLOv8模型,作者提出了一种新的
278
1
0
0
集智书童
Lens重塑视觉感知 | 实时传感器调优+VisiT无训练指标,ImageNet-ES新基准攻克领域偏移
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群领域偏移仍然是基于深度学习的计算机视觉中一个持续的挑战,通常需要大量的模型修改或大量 Token 数据集来解决。受人类视觉感知的启发,人类通过矫正镜片调整输入质量,而不是过度训练大脑,作者提出了Lens,一种新颖的相机传感器控制方法。Lens通过从模型的角度捕获高质量图像来增强模型性能,而不是依赖于传统的以人为中心的传感器控制。Le
19
0
0
0
集智书童
超越VMamba | JamMa突破特征匹配瓶颈,用50%参数量实现对Transformer的性能反超
云原生
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群现有最先进的特征匹配器利用Transformer捕获长距离依赖关系,但受限于高空间复杂度,导致训练需求大和推理延迟高。在性能和效率之间取得更好的平衡仍然是特征匹配领域的一个挑战。受Mamba的线性复杂度的启发,作者提出了一种基于Mamba的超轻量级匹配器,命名为JamMa,它可以在单个GPU上收敛,并在推理中实现了令人印象深刻的性能
18
0
0
0
集智书童
VAR 突破 LMM 视觉盲区 | 注意力再分配实现零成本优化,多任务全面增强
大模型
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群大型多模态模型(LMMs)通过利用Transformer解码器中文本和视觉 Token 之间的注意力机制“观察”图像。理想情况下,这些模型应专注于与文本 Token 相关的关键视觉信息。然而,近期研究发现,LMMs具有一种异常倾向,即持续地将高注意力权重分配给特定的视觉 Token ,即使这些 Token 与相应的文本无关。在本研究
19
0
0
0
集智书童
最全总结!1000篇最新顶会论文!
AI
大模型
向量数据库
机器学习
paperweekly
25
0
0
0
集智书童
YOLO-Pro再登SOTA榜 | 实例特定Bottleneck+非对称解耦Head,边缘设备精度突破新高度
AI
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群本文针对传统 Bottleneck 结构(由于过度强调批处理统计导致实例可区分性降低)和解耦 Head (计算冗余)在目标检测框架中的固有局限性,提出了两个新颖的模块:全通道全局自注意力的实例特定 Bottleneck (ISB)和实例特定非对称解耦 Head (ISADH)。ISB模块创新性地重构特征图,通过批处理统计和实例特定特
18
0
0
0
集智书童
VGG组再次出手提出 ELIP | 革新文本-图像检索,视觉Prompt预测+轻量训练性能超BLIP2
AI
大模型
向量数据库
云通信
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群本文的目标是提升文本到图像检索的性能。为此,作者提出了一种新的框架,该框架能够提升大规模预训练视觉语言模型的表现,使其能够用于文本到图像的重排序。该方法,增强语言-图像预训练(ELIP),利用文本 Query 来预测一组视觉 Prompt ,以条件化ViT图像编码。ELIP可以轻松应用于常用的CLIP/SigLIP以及最先进的BLI
20
0
0
0
集智书童
3步起飞 | 如何让大模型推理飞起来?SpargeAttn稀疏注意力完美实现加速并做到端到端无损
大模型
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群高效的关注机制对于大型模型至关重要,因为其时间复杂度为二次方。幸运的是,关注机制通常表现出Sparse性,即注意力图中许多值接近于零,这允许省略相应的计算。许多研究已经利用Sparse模式来加速关注机制。然而,大多数现有工作通过利用注意力图的特定Sparse模式来优化特定模型中的关注机制。保证各种模型速度提升和端到端性能的通用Spa
30
0
0
0
集智书童
摩尔线程突破LLM长对话内存墙!Round Attention让KV缓存直降56%,实现无损高效推理
AI
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群随着大语言模型(LLMs)中上下文窗口大小的增加,它们处理复杂、长文本任务的能力得到了提升。然而,随着对话轮次的持续,需要在GPU内存中存储大量的KV缓存,这显著影响了模型服务系统的效率甚至可用性。本文分析了来自真实用户的对话数据,并发现LLM推理表现出一个分水岭层,在此之后,轮次 Level 的注意力分布显示出显著的相似性。作者提
32
0
0
0
集智书童
遥感分割新突破!UrbanSAM首创多尺度提示器,无惧城市复杂场景,分割精度跃升
AI
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群从遥感(RS)图像中提取和分割目标在 urban 环境监测中是一项关键且具有挑战性的任务。城市形态本身复杂,包含形状和尺度各异的非规则物体。这些挑战因 RS 数据源(包括传感器、平台和模式)的异质性和尺度差异而加剧,使得准确的目标分割特别具有挑战性。虽然 Segment Anything Model(SAM)在分割复杂场景方面显示出
60
0
0
0
集智书童
小目标检测神器 | 基于 YOLO11 的动态图形神经网络用于小目标检测和跟踪 !
AI
大模型
向量数据库
机器学习
小目标检测神器 | 基于 YOLO11 的动态图形神经网络用于小目标检测和跟踪 !
37
0
0
0
集智书童
Elastic-DETR: 自适应多尺度图像分辨率学习以优化目标检测 !
AI
大模型
向量数据库
机器学习
Elastic-DETR: 自适应多尺度图像分辨率学习以优化目标检测 !
22
0
0
0
集智书童
【附复现代码】基于PINN的论文创新思路
AI
大模型
数据库
机器学习
使用PINN让论文更具创新
369
0
0
0
集智书童
ViT架构革新!Jumbo拓宽CLS Token实现跃升,小模型暴涨13.5%性能,跨模态推理无损高效
云原生
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群作者提出了一种对全局处理视觉Transformer(ViT)的简单增强方法,以在保持吞吐量的同时提高准确性。ViT+Jumbo创建了一个更宽的CLS Token ,该 Token 在注意力之前被分割以匹配 Patch Token 宽度,然后进行自注意力处理并重新组装。在注意力之后,Jumbo对此 Token 应用了一个专用且更宽的F
39
0
0
0
集智书童
0.06%数据追上SAM | 浙大提出DiCEPTIoN统一多任务感知,直击工业痛点
AI
大模型
向量数据库
数据中台
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群作者的主要目标是创建一个优秀的通用感知模型,能够在有限的计算资源和训练数据条件下处理多个任务。为此,作者利用在数十亿图像上预训练的文本到图像扩散模型,并引入作者的视觉通用模型:DiCEPTIoN。作者详尽的评估指标表明,DiCEPTIoN有效地处理了多个感知任务,其性能与最先进模型相当。作者仅使用其数据的0.06%(例如,600K与
48
0
0
0
集智书童
DCFormer 分解卷积架构实现 62% 零样本检测,计算成本降低80%开启临床AI新纪元
AI
大模型
向量数据库
云存储
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群视觉-语言模型(VLMs)对视觉和文本表示进行对齐,使得在2D医学影像中实现高性能的零样本分类和图像-文本检索成为可能。然而,将VLMs扩展到3D医学影像在计算上仍然具有挑战性。现有的3D VLMs依赖于视觉Transformer(ViT),由于自注意力具有二次复杂度,因此计算成本高昂;或者依赖于3D卷积,随着核大小的增加,需要过多
34
0
0
0