We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
集智书童
文章
专栏
问答
集智书童
R1-VL登场 | 清华团队提出StepGRPO逐步奖励机制,重塑AI推理范式
AI
大模型
向量数据库
云通信
更多内容,点击下方关注【AGI之门】公众号获取更多实时AGI相关解读扫描下方二维码,添加小助手微信近期研究通常通过在高质量思维链推理数据上进行的监督微调来增强多语言语言模型(MLLMs)的推理能力,这往往导致模型仅仅模仿成功的推理路径,而不理解错误的推理路径是什么。在本工作中,作者旨在提升MLLMs的推理能力,使其超越被动模仿正面的推理路径。为此,作者设计了逐步分组相对策略优化(StepGRPO)
13
0
0
0
集智书童
UniDepthV2 革新单目深度估计 | 自Prompt相机+几何不变性损失实现跨域零样本泛化
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群精确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,近年来MMDE方法的显著精度仅限于其训练域。即使在存在适度的域差距的情况下,这些方法也无法泛化到未见过的域,这阻碍了它们的实际应用。作者提出了一种新的模型,UniDepthV2,能够从单一图像中跨域重建度量3D场景。与现有的MMDE范式不同,UniD
35
0
0
0
集智书童
浙大+微信+人大开源 R1-Onevision | 多模态大模型也进入了深度思考的时代
AI
大模型
向量数据库
机器学习
更多内容,点击下方关注【AGI之门】公众号获取更多实时AGI相关解读扫描下方二维码,添加小助手微信 导读大语
11
0
0
0
集智书童
YOLOv7如何升级?双注意力机制+MPDIoU损失优化还可以带来进一步的惊喜!
AI
大模型
机器学习
数据库
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群电力设备的正常运行在电力系统中起着至关重要的作用,因此对电力设备进行异常检测具有重要意义。本文提出了一种基于改进YOLOv7x的电力设备异常检测算法。首先,引入了ACmix卷积混合注意力机制模块,以有效抑制背景噪声和不相关特征,从而增强网络的特征提取能力。其次,在网络中添加了Biformer注意力机制,以加强对于关键特征的聚焦,提高
28
0
0
0
集智书童
南开提出 DEYOLO, 双功能增强YOLO,用于跨模态目标检测 !
AI
大模型
机器学习
数据库
南开提出 DEYOLO, 双功能增强YOLO,用于跨模态目标检测 !
12
0
0
0
集智书童
字节联合北大提出 AdaSpa | 动态分块+LSE缓存搜索实现注意力计算效率跃升
音视频
大模型
视频云
数据库
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群利用扩散 Transformer (DiTs)生成高保真长视频往往受到显著延迟的限制,这主要源于注意力机制的计算需求。例如,使用HunyuanVideo生成8秒720p视频(110K个token)需要大约600PFLOPs,其中约500 PFLOPs被注意力计算消耗。为了解决这个问题,作者提出了AdaSpa,这是第一个动态模式与在线
27
0
0
0
集智书童
视频MLLM新SOTA | AKS自适应关键帧采样实现长视频理解精准跃升
AI
大模型
向量数据库
数据中台
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群多模态大语言模型(MLLMs)通过将视觉输入作为额外 Token 注入大语言模型(LLMs)作为上下文,实现了开放世界的视觉理解。然而,当视觉输入从单张图像变为长视频时,上述范式遇到了困难,因为大量视频 Token 显著超出了MLLMs的最大容量。因此,现有的基于视频的MLLMs大多建立在从输入数据中采样一小部分 Token 的基础
24
0
0
0
集智书童
DETR家族再添大将 | 清华&重大提出MI-DETR,并行多时间Query突破级联解码的瓶颈
AI
大模型
向量数据库
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群基于对现有DETR-like模型中广泛采用的级联解码器架构特性的分析,本文提出了一种新的解码器架构。级联解码器架构限制了目标 Query 在级联方向上的更新,仅允许目标 Query 从图像特征中学习相对有限的信息。然而,自然场景中目标检测的挑战(例如,极小、严重遮挡和与背景混淆混合)要求目标检测模型充分利用图像特征,这促使作者提出了
59
0
0
0
集智书童
YoCo来啦 | 3D分割新突破,0.8%标注+时空优化实现Waymo超越全监督性能
AI
大数据
云存储
容器
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群室外激光雷达点云3D实例分割是自动驾驶中的一个关键任务。然而,为训练分割模型标注点云需要大量的人工劳动。为了应对这一挑战,作者提出了一种YoCo框架,该框架利用鸟瞰视图平面上的最小粗略点击标注生成3D伪标签。从Sparse标注中生成高质量伪标签是一个重大挑战。作者的YoCo框架首先利用视觉基础模型结合点云的几何约束来增强伪标签生成。
33
0
0
0
集智书童
WeakMedSAM 医学分割 | 子类探索+Prompt亲和力,低成本实现精准定位
AI
大模型
数据中台
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群作者见证了在视觉任务中基础模型取得的显著进步。目前,一些近期的工作利用了“任何分割模型”(SAM)来提升医学图像的分割性能,其中大部分研究集中于训练一个 Adapter ,以全监督的方式微调大量像素级标注的医学图像。在本文中,为了降低标注成本,作者研究了一种基于SAM的新型弱监督分割模型,即WeakMedSAM。具体来说,作者提出的
37
0
0
0
集智书童
HybridNorm 革新 Transformer 训练 | QKV与 FFN 双路径混合归一化,稳定训练+性能突破双赢
AI
大模型
机器学习
向量数据库
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群Transformer 已成为众多机器学习任务的默认架构,尤其是在大语言模型(LLMs)中。尽管它们的表现令人瞩目,但在训练深度 Transformer 网络方面仍存在挑战,尤其是在层归一化的位置上。虽然Pre-Norm结构由于其更明显的恒等路径而便于训练,但与Post-Norm相比,它们通常会产生次优的性能。在本文中,作者提出了H
31
0
0
0
集智书童
X2CT-CLIP 打破模态壁垒 | 三模态知识迁移实现CXR多病筛查,资源受限环境新方案
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群计算机断层扫描(CT)是诊断的关键成像方式,但其临床应用受到高辐射暴露和长时间周转时间的限制,限制了其在大规模筛查中的应用。尽管胸部X光摄影(CXR)更易获取且更安全,但现有的CXR基础模型主要关注于在CXR上易于识别的疾病检测。最近,一些研究探索了在模拟CXR上训练疾病分类模型,但它们仍然局限于从CT中识别单一疾病类型。CT基础模
31
0
0
0
集智书童
DEAL-YOLO Trick叠满 | WIoU+NWD距离约束+线性可变形卷积LD,降参提效,精准检测小目标
云原生
大模型
数据中台
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群尽管深度学习和空中监控技术的进步正在改善野生动物保护工作,但复杂和多变的环境条件仍然是一个问题,需要创新的解决方案以实现成本效益的小型动物检测。本研究引入了DEAL-YOLO,这是一种新颖的方法,通过使用多目标损失函数如Wise IoU(WIoU)和归一化Wasserstein距离(NwD),这些函数优先考虑边界框中心的像素,从而确
37
0
0
0
集智书童
SAC-ViT革新ViT效率:双阶段语义聚类+早期退出,FLOPs削减62%吞吐量翻倍
AI
大模型
向量数据库
云通信
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群ViT在全局建模方面表现出色,但由于其注意力机制的二次计算复杂度,在资源受限的设备上部署面临挑战。为了解决这个问题,作者提出了语义感知聚类视觉Transformer(SAC-ViT),这是一种非迭代方法,旨在提高ViT的计算效率。SAC-ViT分为两个阶段:早期退出(EE)和语义感知聚类(SAC)。在EE阶段,对下采样输入图像进行处
28
0
0
0
集智书童
南洋理工提出 Split-Adaptation | 低比特前端+双级噪声守护隐私,小样本适配抗攻击性能领先
AI
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群ViTs在大型数据集上进行了广泛预训练,已成为基础模型的重要组成部分,允许在下游任务上以最小的适应性实现卓越的性能。因此,对在各种领域,包括客户通常不愿共享数据的隐私敏感领域,对预训练ViTs进行适配的兴趣日益增长。现有的适配方法通常需要直接访问数据,这使得在这些约束下不可行。一个简单的解决方案可能是将预训练的ViT发送到客户端进行
34
0
0
0
集智书童
端到端架构黑魔法:ICLR'25 大一统架构的DriveTransformer
AI
大模型
机器学习
算法
尽管目前各大车企都已“调转车头”,投入端到端自动驾驶技术的研发中,但是端到端自动驾驶方案都高度依赖于BEV,严重限制了其Scale Up潜力。 ICLR2025最新收录的一篇论文设计了一套不同于以往Scale Up Vision Backbone算法的,以Decoder为核心的无需BEV的大一统架构。DriveTransformer在一定程度上标志着端到端技术从“依赖特定视角”向“动态自适应”的范
36
0
0
0
集智书童
OmniTrack解决跟踪失真难题 | Tracklet 管理+FlexiTrack定位,性能提升6.8%
云原生
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群全景影像,其360°的视野范围,为支持多目标跟踪(MOT)提供了全面的信息,以捕捉周围物体的时空关系。然而,大多数MOT算法针对的是具有有限视野的针孔图像,这限制了它们在全景场景中的有效性。此外,全景图像的失真,如分辨率损失、几何变形和光照不均,阻碍了现有MOT方法的直接应用,导致性能显著下降。为了解决这些挑战,作者提出了OmniT
44
0
0
0
集智书童
YOLO LwF 破局持续目标检测 | 自蒸馏+重放记忆双引擎,单阶段检测器告别灾难性遗忘
云原生
大模型
机器学习
算法
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群实时目标检测器如YOLO在训练于大型数据集并经过多个epoch后表现出色。然而,在数据增量到达的真实场景中,神经网络会遭受灾难性遗忘,导致先前学习到的知识丢失。为了解决这个问题,先前的研究探索了在持续学习目标检测(CLOD)中的类别增量学习(CIL)策略,其中大多数方法集中于两阶段目标检测器。然而,现有工作表明,由于噪声回归输出可能
71
0
0
0
集智书童
DM-YOLO 小目标检测新SOTA | 轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基于YOLOv8模型,作者提出了一种新的
809
1
0
0
集智书童
Lens重塑视觉感知 | 实时传感器调优+VisiT无训练指标,ImageNet-ES新基准攻克领域偏移
AI
向量数据库
大模型
机器学习
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群领域偏移仍然是基于深度学习的计算机视觉中一个持续的挑战,通常需要大量的模型修改或大量 Token 数据集来解决。受人类视觉感知的启发,人类通过矫正镜片调整输入质量,而不是过度训练大脑,作者提出了Lens,一种新颖的相机传感器控制方法。Lens通过从模型的角度捕获高质量图像来增强模型性能,而不是依赖于传统的以人为中心的传感器控制。Le
45
0
0
0