智谱发布新一代基座模型

大模型视频服务数据库

picture.image

自 2023 年 3 月发布第一代语言基座模型 ChatGLM 以来,我们经过对基座模型的深入探索,在模型性能和模态上取得了显著的提升。

基于此,在KDD 2024大会上,我们发布了新一代基座模型,包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX等,这些模型在相应领域均达到了国际第一梯队的水平。

此外,我们还在「清言APP」上线了视频通话功能,并在MaaS平台上开放了GLM-4-Flash API的免费使用。

「 让机器像人一样思考 」,智谱将持续前行。


主要更新:

  • 语言基座模型GLM-4-Plus: 在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
  • 文生图基座模型 CogView-3-Plus: 具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
  • 图像/视频理解基座模型 GLM-4V-Plus: 具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型将上线开放平台(bigmodel.cn),并成为国内首个通用视频理解模型 API。
  • 视频生成基座模型 CogVideoX: 在发布并开源 2B 版本后,5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。
  • 「清言 APP」上线视频通话: 国内首个面向C端用户开放的视频通话服务,「清言 APP」的视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。
  • GLM-4-Flash API: 推理服务完全免费,并提供微调服务。

目录:

模型:GLM-4-Plus

模型:CogView-3-Plus

模型:GLM-4V-Plus

清言:视频通话

开源:CogVideoX

API :GLM-4-Flash 免费

模型:GLM-4-Plus

在过去的半年中,我们针对语言模型做了大量理论研究。在此基础之上,我们研发了 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,并能够更好地反映人类偏好。我们在各项指标上,做到与 GPT-4o 等第一梯队模型持平。

picture.image

此外,在GLM-4-Plus模型的训练过程中,我们通过采用更精准的长短文本数据混合策略,显著增强了模型在长文本推理方面的表现。

picture.image

目前 GLM-4-Plus 模型已经正式上线开放平台(bigmodel.cn),对外提供 API 服务;同时也即将在「清言 APP」上线体验。

模型:CogView-3-Plus

在文生图模型的研发中,我们采用Transformer架构替代了传统的UNet架构来训练扩散模型,并深入研究了扩散模型的噪声规划。在此基础上,我们显著优化了模型效果,并验证了模型参数量提升所带来的 Scale-up效益。我们还构建了高质量的图像微调数据集,使得模型在预训练所获得的广泛知识基础上,能够生成更符合指令需求且具备更高美学评分的图像结果,其效果接近目前处于一线水平的 MJ-V6 和 FLUX 等模型。

picture.image

picture.image

| *Prompt:

A stone in a cave with the words 'CogView3+' carved on it, set in a mystical and ancient environment.*

目前 CogView-3-Plus 模型已经在开放平台(bigmodel.cn)对外提供 API服务,且正式上线「清言 APP」供大家使用。

模型:GLM-4V-Plus

基于我们在 CogVLM系列模型上的研究经验,我们研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus。

picture.image

GLM-4V-Plus 除了能理解并分析复杂的视频内容外,同时还具备超强的时间感知能力。

picture.image

目前该模型已经正式上线开放平台(bigmodel.cn),成为国内首个通用图像&视频理解模型 API。

清言:视频通话

基于我们在模型领域的深入研究,我们在「清言 APP」上正式推出了“视频通话”功能,这是国内首个面向C端用户开放的视频通话服务。

清言视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。用户在拨打清言的视频通话时,可以体验到流畅的互动,即使频繁打断,它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面,还能听懂并准确执行用户的指令,带来如同真人视频通话般的体验。

「清言 APP」 的视频通话功能将于 8月30日上线,首批将面向部分用户开放,同时接受外部申请。我们将持续迭代优化,并逐步扩大开放范围,力求尽快实现全员覆盖。

申请体验:

picture.image

申请链接:

https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf

开源:CogVideoX

智谱始终秉持将最先进的模型开源给广大开发者的理念,以推动大模型社区的繁荣发展。

为进一步促进AI视频生成社区的自主使用和开放式创新,我们在开源 CogVideoX-2B 版本后,再次开源了参数规模更大、性能更强的产品级视频生成模型 CogVideoX-5B。同时,将 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。

picture.image

开源仓库地址:https://github.com/thudm/cogvideo

随着CogVideoX等模型的相继开源,智谱在开源模型的数量和种类上均处于领先地位,累计下载量已突破2000万次。智谱以实际行动为国际开源社区做出了贡献。

API:GLM-4-Flash 免费

在大型模型技术持续进步的背景下,MaaS 服务正逐步迈向普及化阶段。智谱坚持「运用最先进的技术,服务最广大的用户」的宗旨,将在“速度”和“性能”两方面都具有较大优势的 GLM-4-Flash API 全面免费开放。用户可以通过调用GLM-4-Flash,快速且免费地构建专属模型和应用。这也是智谱开放平台(bigmodel.cn)首个完全免费的大模型 API。

picture.image

在完全免费开放 GLM-4-Flash API 的基础之上,为了支持广大用户更好地将模型适用到特定应用场景,我们同步提供了模型微调功能,以满足不同用户的需求。欢迎使用!


picture.image

阅读原文,申请「视频通话」体验!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论