GLM 团队多篇论文入选 AI 顶会 ICLR 2025

大模型向量数据库数据中台

picture.image

今天,第十三届国际表征学习大会(ICLR 2025)在新加坡博览中心盛大开幕。ICLR 由 Yann LeCun(杨立昆)和 Yoshua Bengio 两位图灵奖得主创立,得到了学术研究者们的广泛认可,是人工智能(AI)领域的顶级会议。

凭借一直以来在大模型领域的技术创新,GLM 大模型团队有多篇技术成果被接受,其中包括火爆全球的《猫和老鼠》背后的视频生成模型 CogVideoX、为清言加入情感语音的 GLM-4-Voice、驱动 AutoGLM 的自进化在线课程强化学习框架 WebRL、以及专门用于训练和评估视觉基础 agent 的开创性基准 VisualAgentBench,等等。

我们精选了 7 篇 GLM 团队入选 ICLR 2025 的论文,分享给大家。

  1. CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

在这项工作中,我们提出了一种基于扩散 transformer(DiT)的大规模文本到视频生成模型——CogVideoX,其可以生成与文本提示对齐的 10 秒钟连续视频,帧率为 16 fps,分辨率为 768*1360 像素。

以前的视频生成模型通常动作有限、持续时间短,而且很难根据文本生成具有连贯叙事的视频。我们提出了几种设计方案来解决这些问题。首先,我们提出了一种 3D 变分自编码器(VAE)来压缩空间和时间维度的视频,从而提高压缩率和视频保真度。其次,为了改善文本与视频的对齐,我们提出了专家 transformer 和专家自适应 LayerNorm,以促进两种模态之间的深度融合。然后,通过采用渐进式训练和多分辨率帧包技术,CogVideoX 擅长生成连贯、长时间且具有显著运动特征的视频。此外,我们还开发了有效的文本视频数据处理管道,包括各种数据预处理策略和视频字幕方法,大大提高了生成质量和语义一致性。

picture.image

图|CogVideoX框架

结果表明,CogVideoX 在多个机器指标和人工评估方面都表现出了一流的性能。

论文链接:

https://arxiv.org/abs/2408.06072

GitHub 地址:

https://github.com/THUDM/CogVideo

  1. Scaling Speech-Text Pre-training with Synthetic Interleaved Data

语音语言模型(SpeechLMs)接受语音输入并产生语音输出,与基于文本的大语言模型(LLMs)相比,可实现更自然的人机交互。开发 SpeechLM 的传统方法受制于无监督语音数据和并行语音-文本数据的有限可用性,这些数据的丰富程度远远低于文本预训练数据,从而限制了它们像 LLM 一样大规模扩展。

我们提出了一种新方法,利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练,从而消除了对并行语音-文本数据集的需求。这一方法从现有文本库中抽取文本片段,并使用 text-to-token 模型合成相应的语音片段,从而高效地构建语音-文本交错数据,而无需生成实际语音。通过在编码器中加入向量量化的瓶颈层,我们还采用了从自动语音识别(ASR)模型中提取的监督语音 tokenizer。这种有监督的训练方法即使在较低的采样率(如 12.5Hz)下也能生成语义保存较好的离散语音 token,同时还能保持语音重构的质量。

picture.image

图|方法概述

从预训练的语言模型开始,将预训练扩展到 1 万亿个 token(600B 合成交错语音文本数据),我们在语音语言建模和口语问题解答方面取得了 SOTA,将口语问题任务的性能从之前的 13%(Moshi)提高到 31%。我们进一步证明,通过使用语音对话数据对预训练的模型进行微调,我们可以开发出一种端到端语音聊天机器人,它在对话能力和语音质量方面都能达到与现有基线相当的竞争性能,即使只在语音领域运行也是如此。

论文链接:

https://arxiv.org/abs/2411.17607

  1. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

大语言模型(LLM)已显示出作为自主 agent 的巨大潜力,尤其是在基于网页的任务中。然而,大多 LLM Web agent 严重依赖昂贵的专有 LLM API,而开源 LLM 则缺乏必要的决策能力。

我们推出了自进化在线课程强化学习框架 WebRL,旨在使用开源 LLM 训练高性能 Web Agent。WebRL 解决了构建 LLM Web Agent 的三个关键挑战:训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。

picture.image

图|WebRL 概述

具体来说,WebRL 包含:(1)从不成功的尝试中生成新任务的自进化课程;(2)鲁棒的结果监督奖励模型(ORM);(3)确保持续改进的自适应强化学习策略。

我们应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为熟练的网页 agent。在 WebArena-Lite 上,WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%,将 GLM-4-9B 的成功率从 6.1% 提高到 43%。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)。

研究结果表明,WebRL 能有效缩小基于开源 LLM 的 Web Agent 与基于专有 LLM 的 Web Agent 之间的差距,有利于开发更易于使用、功能更强大的自主网页交互系统。

论文链接:

https://arxiv.org/abs/2411.02337

Github 地址:

https://github.com/THUDM/WebRL

  1. VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

大型多模态模型(LMM)将语言和视觉能力融合在一起,形成了能力强大的视觉基础智能体(Visual Foundation Agents)。然而,现有的基准测试未能充分挑战或展示 LMM 在复杂真实环境中的全部潜力。

为了填补这一空白,我们推出了一个全面的开创性基准 VisualAgentBench(VAB),其专门用于训练和评估作为视觉基础 agent 的 LMM,包括具身、图形用户界面(GUI)和视觉设计等不同场景,其制定的任务旨在探究 LMM 的深度理解和交互能力。

picture.image

图|VisualAgentBench 是首个用于评估 LMM 作为视觉 agent 所面临的各种实际挑战的系统性基准。它还首次提供了用于所有目标环境行为克隆训练的 SFT 轨迹数据,展示了改进开放 LMM 作为视觉基础 agent 的巨大潜力。

通过对 9 种专有 LMM API 和 8 种开放模型的严格测试,我们展示了这些模型相当可观但仍在发展中的 agent 能力。此外,VAB 通过基于程序的求解器、LMM agent 引导和人类演示等混合方法构建了一个轨迹训练集,通过行为克隆促进 LMM 性能的大幅提升。这一工作不仅旨在对现有模型进行基准测试,还为今后开发视觉基础 agent 奠定了坚实的基础。

论文链接:

https://arxiv.org/abs/2408.06327

GitHub 地址:

https://github.com/THUDM/VisualAgentBench

  1. SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

指令遵循是语言模型的一项基本能力,它要求模型能够识别指令中最微妙的要求,并将其准确地反映在输出中。这种能力非常适合偏好学习,而且往往可以通过偏好学习得到优化。然而,现有方法在创建偏好对时,通常会直接从模型中抽取多个独立的响应样本。这种做法可能会引入与是否精确遵循指令无关的内容变化(例如,对相同语义的不同表达),从而干扰了教学模型识别关键差异以改进指令遵循的目标。

为此,我们提出了一个整合树搜索自我强化的自我博弈(self-play)框架——SPaR,其可以生成有效的、可比较的偏好对,而不受干扰。通过自我博弈,LLM 采用树搜索策略,在尽量减少不必要变化的同时,根据指令完善之前的响应。

picture.image

图|SPAR 迭代训练框架

实验表明,在 SPaR 指导下经过三次迭代训练的 LLaMA3-8B 模型,在 IFEval 基准测试中超越了 GPT-4-Turbo,同时没有丢失一般能力。此外,SPaR 还展示了良好的可扩展性和可迁移性,大大增强了 GLM-4-9B 和 LLaMA3-70B 等模型。我们也确定了树搜索中的推理扩展如何影响模型性能。

论文链接:

https://arxiv.org/abs/2412.11605

GitHub 地址:

https://github.com/thu-coai/SPaR

6.CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

视觉语言模型(VLM)在将视觉指令与响应对齐方面经过了广泛的训练,从而展示出了广泛的有效性。然而,这种结论性对齐的训练会导致模型忽视基本的视觉推理,进一步导致在细致的视觉问题上的失败和不忠实的响应。

在这项工作中,我们从人类解决视觉问题(如标记、放大)的认知中汲取灵感,提出了“操作链”(Chain of Manipulations)这一机制,使 VLM 能够通过证据逐步解决问题。经过训练后,模型可以在不涉及外部工具的情况下,通过主动引出具有结果(如方框、图像)的内在操作(如 grounding、放大)来解决各种视觉问题,同时还允许用户追踪错误原因。我们研究了实现这一机制的路线图,包括:(1)在广泛分析的基础上灵活设计操作;(2)高效的自动数据生成管道;(3)兼容多轮多图像的 VLM 架构;(4)实现多功能的模型训练流程。在设计过程中,我们还针对具有挑战性的图形数学问题手动标注了 6K 个高质量样本。

picture.image

图|CogCoM 通过操作链推理解决各种视觉问题,无需依赖外部工具即可生成可证实和可解释的步骤。

我们在这一机制下,训练了 17B 参数大小的 CogCoM,该模型在 4 个类别的 9 个基准测试中取得了 SOTA,在保持可解释性的同时也证明了其有效性。

论文链接:

https://arxiv.org/abs/2402.04236

GitHub 地址:

https://github.com/THUDM/CogCoM

  1. LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

目前的长文本大语言模型(LLM)可以处理多达 10 万个 token 的输入,但很难生成长度超过 2000 个 token 的输出。通过对照实验,我们发现模型的有效生成长度受到其在监督微调(SFT)过程中所见样本的内在限制。换句话说,它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。 为了解决这个问题,我们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite,我们构建了 LongWriter-6k,这是一个包含 6000 个 SFT 数据的数据集,输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练,我们成功地将现有模型的输出长度扩展到了 10000 字以上,同时保证了输出质量。

picture.image

图|AgentWrite 采用了“先计划后编写”的流程,利用现成的 LLM 获得足够长的输出。

我们还开发了用于评估超长生成能力的综合基准——LongBench-Write。9B 参数模型经过 DPO 的进一步改进,在该基准测试中取得了 SOTA,甚至超过了规模更大的专有模型。

总的来说,这项工作表明,现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据,就能释放这种能力。

论文链接:

https://arxiv.org/abs/2408.07055

GitHub 地址:

https://github.com/THUDM/LongWriter


picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论