GLM 团队多篇论文入选 AI 顶会 ICLR 2025 - 文章 - 开发者社区

picture.image

今天，第十三届国际表征学习大会（ICLR 2025）在新加坡博览中心盛大开幕。ICLR 由 Yann LeCun（杨立昆）和 Yoshua Bengio 两位图灵奖得主创立，得到了学术研究者们的广泛认可，是人工智能（AI）领域的顶级会议。

凭借一直以来在大模型领域的技术创新，GLM 大模型团队有多篇技术成果被接受，其中包括火爆全球的《猫和老鼠》背后的视频生成模型 CogVideoX、为清言加入情感语音的 GLM-4-Voice、驱动 AutoGLM 的自进化在线课程强化学习框架 WebRL、以及专门用于训练和评估视觉基础 agent 的开创性基准 VisualAgentBench，等等。

我们精选了 7 篇 GLM 团队入选 ICLR 2025 的论文，分享给大家。

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

在这项工作中，我们提出了一种基于扩散 transformer（DiT）的大规模文本到视频生成模型——CogVideoX，其可以生成与文本提示对齐的 10 秒钟连续视频，帧率为 16 fps，分辨率为 768*1360 像素。

以前的视频生成模型通常动作有限、持续时间短，而且很难根据文本生成具有连贯叙事的视频。我们提出了几种设计方案来解决这些问题。首先，我们提出了一种 3D 变分自编码器（VAE）来压缩空间和时间维度的视频，从而提高压缩率和视频保真度。其次，为了改善文本与视频的对齐，我们提出了专家 transformer 和专家自适应 LayerNorm，以促进两种模态之间的深度融合。然后，通过采用渐进式训练和多分辨率帧包技术，CogVideoX 擅长生成连贯、长时间且具有显著运动特征的视频。此外，我们还开发了有效的文本视频数据处理管道，包括各种数据预处理策略和视频字幕方法，大大提高了生成质量和语义一致性。

picture.image

图｜CogVideoX框架

结果表明，CogVideoX 在多个机器指标和人工评估方面都表现出了一流的性能。

论文链接：

https://arxiv.org/abs/2408.06072

GitHub 地址：

https://github.com/THUDM/CogVideo

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

语音语言模型（SpeechLMs）接受语音输入并产生语音输出，与基于文本的大语言模型（LLMs）相比，可实现更自然的人机交互。开发 SpeechLM 的传统方法受制于无监督语音数据和并行语音-文本数据的有限可用性，这些数据的丰富程度远远低于文本预训练数据，从而限制了它们像 LLM 一样大规模扩展。

我们提出了一种新方法，利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练，从而消除了对并行语音-文本数据集的需求。这一方法从现有文本库中抽取文本片段，并使用 text-to-token 模型合成相应的语音片段，从而高效地构建语音-文本交错数据，而无需生成实际语音。通过在编码器中加入向量量化的瓶颈层，我们还采用了从自动语音识别（ASR）模型中提取的监督语音 tokenizer。这种有监督的训练方法即使在较低的采样率（如 12.5Hz）下也能生成语义保存较好的离散语音 token，同时还能保持语音重构的质量。

picture.image

图｜方法概述

从预训练的语言模型开始，将预训练扩展到 1 万亿个 token（600B 合成交错语音文本数据），我们在语音语言建模和口语问题解答方面取得了 SOTA，将口语问题任务的性能从之前的 13%（Moshi）提高到 31%。我们进一步证明，通过使用语音对话数据对预训练的模型进行微调，我们可以开发出一种端到端语音聊天机器人，它在对话能力和语音质量方面都能达到与现有基线相当的竞争性能，即使只在语音领域运行也是如此。

论文链接：

https://arxiv.org/abs/2411.17607

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

大语言模型（LLM）已显示出作为自主 agent 的巨大潜力，尤其是在基于网页的任务中。然而，大多 LLM Web agent 严重依赖昂贵的专有 LLM API，而开源 LLM 则缺乏必要的决策能力。

我们推出了自进化在线课程强化学习框架 WebRL，旨在使用开源 LLM 训练高性能 Web Agent。WebRL 解决了构建 LLM Web Agent 的三个关键挑战：训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。

picture.image

图｜WebRL 概述

具体来说，WebRL 包含：（1）从不成功的尝试中生成新任务的自进化课程；（2）鲁棒的结果监督奖励模型（ORM）；（3）确保持续改进的自适应强化学习策略。

我们应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为熟练的网页 agent。在 WebArena-Lite 上，WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%，将 GLM-4-9B 的成功率从 6.1% 提高到 43%。这些开源模型的性能大大超过了 GPT-4-Turbo（17.6%）和 GPT-4o（13.9%），也超过了之前在开源 LLM 上训练的 SOTA Web Agent（AutoWebGLM，18.2%）。

研究结果表明，WebRL 能有效缩小基于开源 LLM 的 Web Agent 与基于专有 LLM 的 Web Agent 之间的差距，有利于开发更易于使用、功能更强大的自主网页交互系统。

论文链接：

https://arxiv.org/abs/2411.02337

Github 地址：

https://github.com/THUDM/WebRL

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

大型多模态模型（LMM）将语言和视觉能力融合在一起，形成了能力强大的视觉基础智能体（Visual Foundation Agents）。然而，现有的基准测试未能充分挑战或展示 LMM 在复杂真实环境中的全部潜力。

为了填补这一空白，我们推出了一个全面的开创性基准 VisualAgentBench（VAB），其专门用于训练和评估作为视觉基础 agent 的 LMM，包括具身、图形用户界面（GUI）和视觉设计等不同场景，其制定的任务旨在探究 LMM 的深度理解和交互能力。

picture.image

图｜VisualAgentBench 是首个用于评估 LMM 作为视觉 agent 所面临的各种实际挑战的系统性基准。它还首次提供了用于所有目标环境行为克隆训练的 SFT 轨迹数据，展示了改进开放 LMM 作为视觉基础 agent 的巨大潜力。

通过对 9 种专有 LMM API 和 8 种开放模型的严格测试，我们展示了这些模型相当可观但仍在发展中的 agent 能力。此外，VAB 通过基于程序的求解器、LMM agent 引导和人类演示等混合方法构建了一个轨迹训练集，通过行为克隆促进 LMM 性能的大幅提升。这一工作不仅旨在对现有模型进行基准测试，还为今后开发视觉基础 agent 奠定了坚实的基础。

论文链接：

https://arxiv.org/abs/2408.06327

GitHub 地址：

https://github.com/THUDM/VisualAgentBench

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

指令遵循是语言模型的一项基本能力，它要求模型能够识别指令中最微妙的要求，并将其准确地反映在输出中。这种能力非常适合偏好学习，而且往往可以通过偏好学习得到优化。然而，现有方法在创建偏好对时，通常会直接从模型中抽取多个独立的响应样本。这种做法可能会引入与是否精确遵循指令无关的内容变化（例如，对相同语义的不同表达），从而干扰了教学模型识别关键差异以改进指令遵循的目标。

为此，我们提出了一个整合树搜索自我强化的自我博弈（self-play）框架——SPaR，其可以生成有效的、可比较的偏好对，而不受干扰。通过自我博弈，LLM 采用树搜索策略，在尽量减少不必要变化的同时，根据指令完善之前的响应。

picture.image

图｜SPAR 迭代训练框架

实验表明，在 SPaR 指导下经过三次迭代训练的 LLaMA3-8B 模型，在 IFEval 基准测试中超越了 GPT-4-Turbo，同时没有丢失一般能力。此外，SPaR 还展示了良好的可扩展性和可迁移性，大大增强了 GLM-4-9B 和 LLaMA3-70B 等模型。我们也确定了树搜索中的推理扩展如何影响模型性能。

论文链接：

https://arxiv.org/abs/2412.11605

GitHub 地址：

https://github.com/thu-coai/SPaR

6.CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

视觉语言模型（VLM）在将视觉指令与响应对齐方面经过了广泛的训练，从而展示出了广泛的有效性。然而，这种结论性对齐的训练会导致模型忽视基本的视觉推理，进一步导致在细致的视觉问题上的失败和不忠实的响应。

在这项工作中，我们从人类解决视觉问题（如标记、放大）的认知中汲取灵感，提出了“操作链”（Chain of Manipulations）这一机制，使 VLM 能够通过证据逐步解决问题。经过训练后，模型可以在不涉及外部工具的情况下，通过主动引出具有结果（如方框、图像）的内在操作（如 grounding、放大）来解决各种视觉问题，同时还允许用户追踪错误原因。我们研究了实现这一机制的路线图，包括：（1）在广泛分析的基础上灵活设计操作；（2）高效的自动数据生成管道；（3）兼容多轮多图像的 VLM 架构；（4）实现多功能的模型训练流程。在设计过程中，我们还针对具有挑战性的图形数学问题手动标注了 6K 个高质量样本。

picture.image

图｜CogCoM 通过操作链推理解决各种视觉问题，无需依赖外部工具即可生成可证实和可解释的步骤。

我们在这一机制下，训练了 17B 参数大小的 CogCoM，该模型在 4 个类别的 9 个基准测试中取得了 SOTA，在保持可解释性的同时也证明了其有效性。

论文链接：

https://arxiv.org/abs/2402.04236

GitHub 地址：

https://github.com/THUDM/CogCoM

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

目前的长文本大语言模型（LLM）可以处理多达 10 万个 token 的输入，但很难生成长度超过 2000 个 token 的输出。通过对照实验，我们发现模型的有效生成长度受到其在监督微调（SFT）过程中所见样本的内在限制。换句话说，它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。为了解决这个问题，我们提出了一种基于智能体的管道——AgentWrite，其可以将超长生成任务分解为子任务，使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite，我们构建了 LongWriter-6k，这是一个包含 6000 个 SFT 数据的数据集，输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练，我们成功地将现有模型的输出长度扩展到了 10000 字以上，同时保证了输出质量。

picture.image

图｜AgentWrite 采用了“先计划后编写”的流程，利用现成的 LLM 获得足够长的输出。

我们还开发了用于评估超长生成能力的综合基准——LongBench-Write。9B 参数模型经过 DPO 的进一步改进，在该基准测试中取得了 SOTA，甚至超过了规模更大的专有模型。

总的来说，这项工作表明，现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据，就能释放这种能力。

论文链接：

https://arxiv.org/abs/2408.07055

GitHub 地址：

https://github.com/THUDM/LongWriter

picture.image