大模型能理解多长的视频?GLM-4V-Plus:2小时

大模型视频服务数据库

picture.image

在前两代视频模型(CogVLM2-Video和GLM-4V-PLUS)的基础上,我们进一步优化了视频理解技术,推出了GLM-4V-Plus-0111 beta版本。该版本引入了原生可变分辨率等技术,提升了模型对不同视频长度和分辨率的适应能力。 

 

  • 短视频理解更精细: 对于视频长度较短的内容,模型支持原生高分辨率视频,确保细节信息的精准捕捉。
  • 长视频理解更强大: 面对 长达2小时的视频,模型能够自动调整至更小分辨率 ,有效平衡时间与空间信息捕捉,实现长视频的深入理解。

 

通过此次更新,GLM-4V-Plus-0111 beta版本不仅延续了前两代模型在时间问答方面的优势,更在视频长度和分辨率适应能力上实现了显著提升。 

 

一、性能对比

在近日发布的《智谱 Realtime、4V、Air 新模型发布,同步上新API》一文中,我们详细介绍了GLM-4V-Plus-0111 (beta) 模型在图像理解领域的评测成果。该模型在多个公开评测榜单上均达到了sota水平。

 

picture.image

此外,我们还针对权威的视频理解评测集进行了全面测试,同样取得较为领先的水平。特别是在视频中细粒度动作理解和长视频理解方面,GLM-4V-Plus-0111 beta模型显著领先于同级别视频理解模型。 

picture.image

  • MVBench: 该评测集由20项复杂视频任务组成,旨在全面评估多模态大模型在视频理解方面的综合能力。
  • VideoMME w/o subs: 作为多模态评估基准,VideoMME用于评估大语言模型的视频分析能力。其中,w/o subs版本表示不包含字幕的多模态输入,专注于视频本身的分析。
  • VideoMME w/ subs: 与w/o subs版本相似,但增加了字幕作为多模态输入,以更全面地评估模型在处理多模态数据时的综合表现。
  • MotionBench: 专注于细粒度运动理解,MotionBench是一个包含多样化视频数据和高质量人工注释的综合基准数据集,用于评估视频理解模型在运动分析方面的能力。
  • LVBench: 旨在评估模型对长视频的理解能力,LVBench挑战多模态模型在处理长视频任务时的表现,验证模型在长时间序列分析中的稳定性和准确性。

 

二、场景应用

 

在过去一年中,视频理解模型的应用领域不断拓展,为新媒体、广告、安全审查、工业制造等行业提供了视频描述生成、事件分割、分类、打标签及事件分析等多样化能力。我们最新推出的GLM-4V-Plus-0111 beta视频理解模型,在继承并强化这些基本功能的基础上,进一步提升了视频数据的处理和分析能力。 

 

更准确的视频描述能力: 依托原生分辨率输入及持续的数据飞轮幻觉优化,新模型在视频描述生成方面显著降低了幻觉率,并实现了更全面的视频内容描述,为用户提供了更精准、更丰富的视频信息。 

picture.image


picture.image

高效的视频数据处理: 新模型不仅具备详细的视频描述能力,还能高效完成视频分类、标题生成和打标签任务。用户可通过自定义提示词,进一步提升处理效率,或构建自动化视频数据流程,实现智能化管理。 

picture.image

精准的时间感知能力: 针对视频数据的时间维度特性,我们的模型自第一代起便致力于提升时间问答能力。现在,新模型能够更精准地定位特定事件的时间点,实现视频的语义分割和自动化剪辑,为视频编辑和分析提供强大支持。 

picture.image

 

精细的动作理解能力: 新模型支持更高帧率输入,即使在视频帧率较低的情况下,也能捕捉到微小的动作变化,实现更精细的动作理解,为需要精确动作分析的应用场景提供了有力保障。 

picture.image

picture.image

超长视频理解能力: 通过创新的可变分辨率技术,新模型突破了视频处理时长限制,支持长达2小时的视频理解,大幅拓宽了视频理解模型的业务应用场景,以下是一个小时级别视频理解的案例展示:

 

picture.image

实时视频通话能力: 基于强大的视频理解模型,我们进一步开发了实时视频通话模型GLM-Realtime,具备实时视频理解和问答能力,通话记忆时长达2分钟。该模型已上线智谱AI开放平台(https://bigmodel.cn/dev/howuse/glm-realtime)并限时免费。GLM-Realtime不仅助力客户构建视频通话智能体,还可与现有可联网硬件结合,轻松打造智能家居、AI玩具、AI眼镜等创新产品。 

 

目前,普通用户也可以在智谱清言APP上获得和AI进行视频通话的体验。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论