智谱发布新一代基座模型 - 文章 - 开发者社区

picture.image

自 2023 年 3 月发布第一代语言基座模型 ChatGLM 以来，我们经过对基座模型的深入探索，在模型性能和模态上取得了显著的提升。

基于此，在KDD 2024大会上，我们发布了新一代基座模型，包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX等，这些模型在相应领域均达到了国际第一梯队的水平。

此外，我们还在「清言APP」上线了视频通话功能，并在MaaS平台上开放了GLM-4-Flash API的免费使用。

「让机器像人一样思考」，智谱将持续前行。

主要更新：

语言基座模型GLM-4-Plus： 在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。
文生图基座模型 CogView-3-Plus： 具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
图像/视频理解基座模型 GLM-4V-Plus： 具备卓越的图像理解能力，并具备基于时间感知的视频理解能力。该模型将上线开放平台（bigmodel.cn），并成为国内首个通用视频理解模型 API。
视频生成基座模型 CogVideoX： 在发布并开源 2B 版本后，5B 版本也正式开源，其性能进一步增强，是当前开源视频生成模型中的最佳选择。
「清言 APP」上线视频通话： 国内首个面向C端用户开放的视频通话服务，「清言 APP」的视频通话功能跨越了文本、音频和视频模态，并具备实时推理能力。
GLM-4-Flash API： 推理服务完全免费，并提供微调服务。

目录：

模型：GLM-4-Plus

模型：CogView-3-Plus

模型：GLM-4V-Plus

清言：视频通话

开源：CogVideoX

API ：GLM-4-Flash 免费

模型：GLM-4-Plus

在过去的半年中，我们针对语言模型做了大量理论研究。在此基础之上，我们研发了 GLM-4-Plus 基座模型，通过多种方式构造出了海量高质量数据，并利用 PPO等多项技术，有效提升了模型推理、指令遵循等方面的表现，并能够更好地反映人类偏好。我们在各项指标上，做到与 GPT-4o 等第一梯队模型持平。

picture.image

此外，在GLM-4-Plus模型的训练过程中，我们通过采用更精准的长短文本数据混合策略，显著增强了模型在长文本推理方面的表现。

picture.image

目前 GLM-4-Plus 模型已经正式上线开放平台（bigmodel.cn），对外提供 API 服务；同时也即将在「清言 APP」上线体验。

模型：CogView-3-Plus

在文生图模型的研发中，我们采用Transformer架构替代了传统的UNet架构来训练扩散模型，并深入研究了扩散模型的噪声规划。在此基础上，我们显著优化了模型效果，并验证了模型参数量提升所带来的 Scale-up效益。我们还构建了高质量的图像微调数据集，使得模型在预训练所获得的广泛知识基础上，能够生成更符合指令需求且具备更高美学评分的图像结果，其效果接近目前处于一线水平的 MJ-V6 和 FLUX 等模型。

picture.image

| *Prompt：

A stone in a cave with the words 'CogView3+' carved on it, set in a mystical and ancient environment.*

目前 CogView-3-Plus 模型已经在开放平台（bigmodel.cn）对外提供 API服务，且正式上线「清言 APP」供大家使用。

模型：GLM-4V-Plus

基于我们在 CogVLM系列模型上的研究经验，我们研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus。

picture.image

GLM-4V-Plus 除了能理解并分析复杂的视频内容外，同时还具备超强的时间感知能力。

picture.image

目前该模型已经正式上线开放平台（bigmodel.cn），成为国内首个通用图像&视频理解模型 API。

清言：视频通话

基于我们在模型领域的深入研究，我们在「清言 APP」上正式推出了“视频通话”功能，这是国内首个面向C端用户开放的视频通话服务。

清言视频通话功能跨越了文本、音频和视频模态，并具备实时推理能力。用户在拨打清言的视频通话时，可以体验到流畅的互动，即使频繁打断，它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面，还能听懂并准确执行用户的指令，带来如同真人视频通话般的体验。

「清言 APP」的视频通话功能将于 8月30日上线，首批将面向部分用户开放，同时接受外部申请。我们将持续迭代优化，并逐步扩大开放范围，力求尽快实现全员覆盖。

申请体验：

picture.image

申请链接：

https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf

开源：CogVideoX

智谱始终秉持将最先进的模型开源给广大开发者的理念，以推动大模型社区的繁荣发展。

为进一步促进AI视频生成社区的自主使用和开放式创新，我们在开源 CogVideoX-2B 版本后，再次开源了参数规模更大、性能更强的产品级视频生成模型 CogVideoX-5B。同时，将 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。

picture.image

开源仓库地址：https://github.com/thudm/cogvideo

随着CogVideoX等模型的相继开源，智谱在开源模型的数量和种类上均处于领先地位，累计下载量已突破2000万次。智谱以实际行动为国际开源社区做出了贡献。

API：GLM-4-Flash 免费

在大型模型技术持续进步的背景下，MaaS 服务正逐步迈向普及化阶段。智谱坚持「运用最先进的技术，服务最广大的用户」的宗旨，将在“速度”和“性能”两方面都具有较大优势的 GLM-4-Flash API 全面免费开放。用户可以通过调用GLM-4-Flash，快速且免费地构建专属模型和应用。这也是智谱开放平台（bigmodel.cn）首个完全免费的大模型 API。

picture.image

在完全免费开放 GLM-4-Flash API 的基础之上，为了支持广大用户更好地将模型适用到特定应用场景，我们同步提供了模型微调功能，以满足不同用户的需求。欢迎使用！

picture.image

阅读原文，申请「视频通话」体验！