在前两代视频模型(CogVLM2-Video和GLM-4V-PLUS)的基础上,我们进一步优化了视频理解技术,推出了GLM-4V-Plus-0111 beta版本。该版本引入了原生可变分辨率等技术,提升了模型对不同视频长度和分辨率的适应能力。
- 短视频理解更精细: 对于视频长度较短的内容,模型支持原生高分辨率视频,确保细节信息的精准捕捉。
- 长视频理解更强大: 面对 长达2小时的视频,模型能够自动调整至更小分辨率 ,有效平衡时间与空间信息捕捉,实现长视频的深入理解。
通过此次更新,GLM-4V-Plus-0111 beta版本不仅延续了前两代模型在时间问答方面的优势,更在视频长度和分辨率适应能力上实现了显著提升。
在近日发布的《智谱 Realtime、4V、Air 新模型发布,同步上新API》一文中,我们详细介绍了GLM-4V-Plus-0111 (beta) 模型在图像理解领域的评测成果。该模型在多个公开评测榜单上均达到了sota水平。
此外,我们还针对权威的视频理解评测集进行了全面测试,同样取得较为领先的水平。特别是在视频中细粒度动作理解和长视频理解方面,GLM-4V-Plus-0111 beta模型显著领先于同级别视频理解模型。
- MVBench: 该评测集由20项复杂视频任务组成,旨在全面评估多模态大模型在视频理解方面的综合能力。
- VideoMME w/o subs: 作为多模态评估基准,VideoMME用于评估大语言模型的视频分析能力。其中,w/o subs版本表示不包含字幕的多模态输入,专注于视频本身的分析。
- VideoMME w/ subs: 与w/o subs版本相似,但增加了字幕作为多模态输入,以更全面地评估模型在处理多模态数据时的综合表现。
- MotionBench: 专注于细粒度运动理解,MotionBench是一个包含多样化视频数据和高质量人工注释的综合基准数据集,用于评估视频理解模型在运动分析方面的能力。
- LVBench: 旨在评估模型对长视频的理解能力,LVBench挑战多模态模型在处理长视频任务时的表现,验证模型在长时间序列分析中的稳定性和准确性。
在过去一年中,视频理解模型的应用领域不断拓展,为新媒体、广告、安全审查、工业制造等行业提供了视频描述生成、事件分割、分类、打标签及事件分析等多样化能力。我们最新推出的GLM-4V-Plus-0111 beta视频理解模型,在继承并强化这些基本功能的基础上,进一步提升了视频数据的处理和分析能力。
更准确的视频描述能力: 依托原生分辨率输入及持续的数据飞轮幻觉优化,新模型在视频描述生成方面显著降低了幻觉率,并实现了更全面的视频内容描述,为用户提供了更精准、更丰富的视频信息。
高效的视频数据处理: 新模型不仅具备详细的视频描述能力,还能高效完成视频分类、标题生成和打标签任务。用户可通过自定义提示词,进一步提升处理效率,或构建自动化视频数据流程,实现智能化管理。
精准的时间感知能力: 针对视频数据的时间维度特性,我们的模型自第一代起便致力于提升时间问答能力。现在,新模型能够更精准地定位特定事件的时间点,实现视频的语义分割和自动化剪辑,为视频编辑和分析提供强大支持。
精细的动作理解能力: 新模型支持更高帧率输入,即使在视频帧率较低的情况下,也能捕捉到微小的动作变化,实现更精细的动作理解,为需要精确动作分析的应用场景提供了有力保障。
超长视频理解能力: 通过创新的可变分辨率技术,新模型突破了视频处理时长限制,支持长达2小时的视频理解,大幅拓宽了视频理解模型的业务应用场景,以下是一个小时级别视频理解的案例展示:
实时视频通话能力: 基于强大的视频理解模型,我们进一步开发了实时视频通话模型GLM-Realtime,具备实时视频理解和问答能力,通话记忆时长达2分钟。该模型已上线智谱AI开放平台(https://bigmodel.cn/dev/howuse/glm-realtime)并限时免费。GLM-Realtime不仅助力客户构建视频通话智能体,还可与现有可联网硬件结合,轻松打造智能家居、AI玩具、AI眼镜等创新产品。
目前,普通用户也可以在智谱清言APP上获得和AI进行视频通话的体验。