突破视觉音频推理鸿沟:SightSound-R1跨模态蒸馏框架实现音频模型思维链能力迁移!

大模型机器学习算法

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

虽然大型音频语言模型(LALMs)已经展示了最先进的音频理解能力,但它们在复杂声景中的推理能力仍然落后于大型视觉语言模型(LVLMs)。与视觉领域相比,一个 Bottleneck 是缺乏大规模的思维链音频数据来教授LALM逐步推理。为了规避这种数据和模态差距,作者提出了SightSound-R1,这是一个跨模态蒸馏框架,它将High-Level推理能力从更强的LVLM教师模型转移到更弱的LALM学生模型上,两者都在相同的音频-视觉问答(AVQA)数据集上进行。

SightSound-R1包含三个核心步骤:

(i) 测试时扩展,从LVLM教师模型生成以音频为中心的思维链(CoT),

(ii) 基于音频的验证以过滤幻觉,以及 (iii) 一个蒸馏 Pipeline ,包括对LALM学生模型进行监督微调(SFT)和随后的组相对策略优化(GRPO)。

结果表明,SightSound-R1不仅提高了LALM在领域内AVQA测试集上的推理性能,也在未见过的听觉场景和问题上有所提升,其表现超过了预训练和仅标签蒸馏的 Baseline 模型。

因此,作者得出结论,视觉推理可以有效地转移到音频模型中,并通过丰富的音频-视觉数据进行扩展。

  1. 引言

多模态大语言模型[1, 2, 3, 4, 5]的快速发展已经产生了将特定模态编码器(例如用于音频的Whisper[6]和用于图像的Vision Transformers[7])与强大的大语言模型解码器相结合的系统。这些基础模型已经在音频和视频理解[8, 9]方面表现出强大的性能。虽然监督式下一个词元预测可能只能学习浅层的答案模式,但强化学习(RL)[10]和思维链(CoT) Prompt [11]已成为学习推理的有效途径,其中DeepSeek-R1[12]通过纯RL取得了显著收益,并启发了视觉领域后续的"R1风格"训练[13, 14, 15]。类似但延迟的进展最近开始在音频领域[16, 17]出现。

为了在需要时间、比较和因果推理的具体且具有挑战性的环境中测量和比较音频和视觉推理能力,作者专注于音频-视觉问答(AVQA)[18, 19, 20]。尽管场景共享,先前的研究观察到大型视觉-语言模型(LVLMs)和大型音频-语言模型(LALMs)之间存在持续差距[21]:LVLMs——通常更大且在丰富的图像-文本数据上训练——产生更强的多步推理能力,而LALMs——较小且在较稀少的音频-文本数据上训练——通常难以在复杂的听觉场景中生成连贯的思维轨迹[15]。

Qwen2-Audio-7B

通过将音频字幕与纯文本LLMs配对来合成音频CoT的尝试[22, 23, 24]可能会有所帮助,但考虑到LVLM和LALMs之间存在巨大差距,跨模态推理蒸馏仍然研究不足且值得探索。这激发了一个核心问题:推理能否从LVLM转移到LALMs,以弥合相同视听场景中的模态差距?作者通过在AVQA数据集[18]上分析Qwen2.5-VL [1]、Qwen2.5-Omni [3]和Qwen2-Audio-7B-Instruct [4]来研究这个问题。作者首先确定了LVLMs和LALMs之间的性能差距,并应用了一种简单的测试时蒸馏方法来缓解这一差距。作者进一步介绍了SightSound-R1,这是一个跨模态推理蒸馏框架,其中强大的LVLM通过在AVQA数据集[18]上提供过滤的推理轨迹和预测标签来监督学生LALM。SightSound-R1在MMAU-mini音轨[9]和MusicAVQA数据集[19]上超越了零样本推理和仅标签蒸馏 Baseline ,产生了结构化的推理步骤(图1)。作者的贡献有三方面:

picture.image

• 作者识别并分析了LVLMs与LALMs在AVQA基准测试上多步推理方面的性能差距。

• 作者提出了SightSound-R1,这是一个结构化和自动化的流程,通过SFT和GRPO从LVLMs中引出、验证并提炼以音频为中心的CoT到LALM中。作者展示了强大且可泛化的结果:SightSoundR1提高了LALM在AVQA上的推理能力,并在未见过的MMAU和MUSIC-AVQA基准测试上取得了具有竞争力的准确性。

  1. 相关工作

2.1. 语言与多模态推理

最近的基础模型,包括Qwen系列[25, 1, 3, 4]、ChatGPT [5, 26]和Gemini [27],已在多个领域展示了卓越的通用推理能力。特别是DeepSeek系列[12, 10]因通过可验证 Reward 的强化学习(RLVR)改进推理而引起了关注,这种方法已成功扩展到视觉、音频和视听环境[13, 14, 15, 28, 29]。

在音频领域,近期工作已经为大型音频-语言模型(LALMs)引入了显式的思维链(CoT)监督。Audio-CoT [16]将思维链推理扩展到LALMs,而Audio-Reasoner [17]则为音频理解引入了结构化的多阶段推理过程。AudSemThinker [23]通过开发语义推理框架,进一步推动了这一研究方向。其他工作,如SARI [30]和Audio-Thinker [22],将音频描述与推理LLMs配对,构建用于监督微调(SFT)和GRPO训练的语料库。除了纯音频推理外,跨模态音频-视觉方法正在兴起:ThinkSound [24]整合了来自LVLMs和LALMs的CoT推理用于视频到音频的生成,而Ren等人[31]则从LVLM上的无声视频中提取音频描述,以支持文本辅助的视频到音频合成。Jiang等人[21]进一步强调了将LVLM输出蒸馏到LALMs用于可见声音识别任务的前景。

2.2. 推理蒸馏

推理蒸馏是使先进推理能力能够被较小模型获取的关键方向。NaturalThoughts [32] 从强大的教师模型中策划系统性的推理轨迹,而 Aurelia [33] 则提出了使用多 Agent 框架为视听大语言模型进行免训练、测试时的推理蒸馏。MiCoTA [34] 和 Li 等人 [35] 解决了小型语言模型(SLMs)中的可学习性差距,引入了平衡推理复杂度的策略以实现有效蒸馏。尽管如此,所有这些方法都是在相同模态内从强模型向弱模型进行推理蒸馏。不幸的是,在音频领域,强大的音频推理器仍然供不应求,更不用说大型音频推理数据集的缺失了。因此,本研究提出利用视听数据集上视觉教师模型的"免费午餐"来规避强大的音频教师模型和数据集的缺乏。

  1. 方法

SightSound-R1通过三个阶段(图2)将强大的LVLM中的逐步推理提炼到学生LALM中。(1) 教师推理生成:作者使用具有自一致性的测试时扩展,从无声视频中引出多个以音频为中心的CoT轨迹。(2) 音频基础事实验证(AGFV):一个轻量级检查器根据真实音频验证教师的音频声明,并过滤幻觉轨迹,以策划经过事实核查的语料库。(3) 学生训练:LALM首先在经过验证的CoT上接受SFT以学习格式和对齐,然后通过GRPO使用KL正则化目标来优化答案准确性和CoT格式。这一流程传输视觉推理轨迹,同时保留音频基础,并且它可以扩展到任意的视听场景,无需人工CoT标注!

picture.image

3.1. 基于测试时缩放的教师推理生成

测试时扩展与自一致性方法产生多个多样化的CoT轨迹并仅保留一致/统一的答案,减少幻觉同时提高监督质量而无需额外样本。作者使用Qwen2.5-VL-32B-Instruct作为LVLM教师

从无声视频中生成多个以音频为中心的CoT轨迹。给定一个视频-问题对

和一个以音频为中心的 Prompt

,作者通过自一致性采样

个轨迹:

当教师答案一致时,作者保留样本:

这种生成策略(图2)因此产生了多样化但高置信度的推理轨迹。

3.2. 基于音频的事实核查

由于LVLM教师无法听到,其CoT轨迹可能会因不存在的声音而产生幻觉。作者使用音频检查器

(另一个LALM,例如GPT4o-audio)通过二元决策来验证每条轨迹

与真实音频

的一致性:

被接受的轨迹构成了一个经过事实核查的语料库

,

。这一步骤过滤幻觉性声明,同时保持模型无关性。对于成本敏感设置,

可以被一个使用小型校准集进行二元对齐训练的音频-文本验证器所替代,类似于[21]中的二元开关。

3.3. 基于蒸馏教师输出的学生训练

作者分两个阶段训练LALM学生模型Qwen2-Audio-7B-Instruct:首先在验证过的CoT上进行SFT,然后使用带有KL Anchor 点的GRPO。SFT通过教师CoT格式引导学生模型,而GRPO则通过探索进一步优化

格式和答案准确性,使用教师标签,实现稳健、可泛化的推理能力。

表示音频-问题对,且

为来自

的事实核查追踪。作者仅在冻结的基础

之上优化 LoRA [36] 参数

。SFT 目标为:

遵循DeepSeekMath [10],作者从当前策略

中采样

个响应

并计算它们的 Reward

。优势被标准化为

, 其中

是响应

的 Reward 。策略模型

通过裁剪目标进行优化:

其中

表示响应

中的第 t 个 token,

是裁剪参数,

控制来自参考策略

的 KL 散度强度,

是当前更新前的策略。

如图2所示,该流水线使学生能够内化教师的推理模式,同时继续使用其自身的音频感知器进行探索。该方法自然扩展到由强大的、测试时扩展的LVLM教师分析和标注的多种视听环境。

  1. 实验

4.1. 数据集与实现细节

作者在AVQA、MMAU和MUSIC-AVQA上进行评估。AVQA [18]提供了大规模的视听问答;遵循R1-AQA [15],作者通过提取音轨并将问题中的"video"替换为"audio"来创建一个音频-文本变体,同时保留配对的静音视频 Prompt 以供LVLM推理。对于MMAU [9],作者在官方test-mini (v05.15.25)上报告结果,该测试集包含1k个音频问答对。MUSIC-AVQA [19]包含来自YouTube表演视频的

个问答,涵盖22种乐器和9种问题类型。作者报告了按类别(表2)和总体准确率的结果。

picture.image

所有实验均在单个节点上使用SWIFT框架[37]和8个NVIDIA A40 GPU进行,应用LoRA[36]进行参数高效微调,并在GRPO期间使用vLLM[38]加速推演生成。

在SFT阶段,Qwen2-Audio7B-Instruct以每GPU批大小8、学习率

、LoRA秩8且

的设置训练了2000步。在GRPO期间,作者切换到全参数调优,分配2个GPU用于推演生成,6个GPU用于策略优化,每个输入 Prompt 采样8个完成结果(每步192个候选响应),每设备批大小为4,学习率

,温度为1.0,KL系数

,最多训练1000步。两个阶段的最佳预训练权重均通过验证准确率选择。所有训练均在AVQA数据集上进行。

4.2. 结果与分析

初步:作者首先证明了LALMs和LVLMs之间性能差距的存在。在AVQA验证集(表1)上,LVLMs显著优于LALMs,其中多模态Qwen2.5-Omni (3B/7B)以

的准确率领先,而Qwen2-Audio7B在直接推理下表现落后。Zero-Shot-CoT进一步降低了Qwen2-Audio-7B的性能(

vs.

),表明其 Backbone 网络缺乏进行有效CoT的推理能力。

相比之下,Qwen2.5-VL-32B在从无声视频生成以音频为中心的CoT方面保持了强劲性能(

;见图2)。使用Qwen2.5-VL-32B的Audio-CoT进行测试时蒸馏将Qwen2-Audio-7B的性能提升至

,而使用真实标签进行监督训练达到

,这支持了作者的假设,即LVLM的推理能力可以转移到音频模型中。这些发现为SightSound-R1奠定了基础,使其能够将更强的LVLM推理能力蒸馏到较弱的LALM中。

picture.image

在MMAU Test-mini(表2)上,SightSound-R1在Sound任务上取得了最强的性能

,其次是Music

和Speech

。尽管在Sound任务上,llm-SightSound-R1_2509表现不如Audio-Thinker [22] Baseline (

vs.

),但llm-SightSound-R1_2509仅依赖于LVLM教师,无需真实信号,有效地展示了可扩展的跨模态知识迁移。

在MUSIC-AVQA测试集上,SightSound-R1达到了

的准确率,总体排名第二,在Temporal

和Comparative

推理任务上超越了 Baseline 模型。

作者的消融研究揭示了各组件的渐进贡献:仅在蒸馏CoT上的基础SFT在MMAU上达到

,添加AudioGrounded Fact Verification (AGFV)通过过滤幻觉将性能提升至

,而带有GRPO的完整SightSound-R1在MMAU声音任务和MUSIC-AVQA上都取得了显著改进。Test-Time Scaling (TTS)显示出混合效果,略微降低了MMAU性能但提高了MUSICAVQA结果,证明了推理模式的鲁棒迁移。

此外,SightSound-R1的性能模式(声音方面提升,语音和音乐方面下降)突显了跨模态推理迁移的优势和局限性。LVLMs能够轻松推理可见的声音事件,但无法捕捉如速度、音高、音色或语音内容等缺乏明确视觉关联的精细声学特性。

因此,在这些CoT轨迹上进行SFT可能会误导学生模型产生偏差或幻觉。未来的工作应该更好地与LALM感知集成,以实现稳健的推理。

  1. 结论

作者介绍了SightSound-R1,一种通过AVQA将LVLM推理能力转移到LALM的跨模态蒸馏框架。通过结合测试时扩展、基于音频的事实验证以及在蒸馏CoT上的SFT/GRPO,SightSound-R1在MMAU Test-mini Sound上达到

,在MUSIC-AVQA上达到

,在未见过的视听推理任务上表现出比标签蒸馏更强的增益。

参考

[1]. SIGHTSOUND-R1: CROSS-MODAL REASONING DISTILLATION FROM VISION TO AUDIO LANGUAGE MODELS

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论