CFM 与 OT-CFM:条件流匹配与最优传输的碰撞

大模型向量数据库机器学习

picture.image

在这里插入图片描述

1. 核心目标

提出条件流匹配(CFM) 及其优化版本OT-CFM ,解决连续标准化流(CNF)中模拟ODE的困难,并通过最优传输减少路径交叉问题。


2. 关键概念

(1) Flow Matching (FM)

  • 问题 :直接求解CNF需模拟ODE,计算复杂。
  • 方案 :通过回归损失估计向量场

其中

是连接先验分布

(如高斯分布)和目标分布

的“概率路径桥”。

(2) Conditional Flow Matching (CFM)

  • 核心创新 :引入隐变量

(目标分布样本)分解概率路径:

边界条件:

(先验分布)

(目标分布加噪声)

  • 损失函数
  • 优势 :梯度等价于FM损失,但避免了直接求解

picture.image

在这里插入图片描述

(3) CFM的路径问题

  • 缺陷 :条件路径

可能出现交叉,导致训练不稳定:

CFM路径交叉; OT-CFM路径平直.

  • 原因 :独立采样 ( (x_0, x_1) ) 时,路径未考虑样本间的几何关系。

picture.image

CFM

picture.image

OT-CFM


3. OT-CFM:基于最优传输的改进

(1) 核心思想

  • 联合优化

的耦合分布

,使用最优传输最小化整体代价:

其中

是边际分布为

的联合分布集合。

  • 效果 :相近的

被配对,路径变为近似直线。

(2) 实现方式

  • Mini-batch OT :实际中全局最优

难求解,改用小批量样本近似最优传输对。

  • 路径变化
  • • CFM路径:混乱交叉
  • • OT-CFM路径:平直无交叉,训练更稳定。

4. 总结对比

| 方法 | 核心机制 | 路径特点 | 训练稳定性 | | FM | 直接回归

| 依赖桥函数设计 | 困难 | | CFM | 条件向量场

| 可能交叉 | 中等 | | OT-CFM | 最优传输配对

| 平直无交叉 | 更优 |


5. 应用与展望

  • 当前 :OT-CFM解决路径交叉问题,提升模型收敛性。

:本文数学推导严谨,需结合前两篇CFM系列文章(ODE基础、连续标准化流)理解。关键突破在于通过最优传输显式优化样本对耦合关系 ,显著改善概率路径的几何性质。

参考文献

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你,也是 我们持续 创作的最大动力!

推荐

DPO损失实现

Conditional Flow Matching : 常微分方程ODE、欧拉方法和Neural ODE

当 Normalizing flow 遇上语音生成:AI 说话变 “真人” 的秘密在这里!

深度剖析:Kimi - Audio 中 BigVGAN 的神奇作用

为什么说分布变换是 Normalizing flow 的「灵魂操作」?

MATCHA-TTS 来了!条件流匹配让文本转语音效率飙升

从知识增长的角度提升RAG上下文的质量

MiniMax-Speech,零样本语音合成新突破,32 种语言轻松拿捏!

手把手教你创建 evol-instruct 数据集!附完整流程~

社交类聊天的 Query 分析与应答策略

SFT 中指令选择和响应选择哪个更重要?

角色扮演大模型技术分享2-超拟人模型的困境

最新!SpeechLLM 综述:架构、能力、挑战与未来全揭秘

如何低成本生成高质量指令微调数据?

从数量到质量:通过自引导数据选择来提升语言模型性能以实现指令调优

Kimi-Audio:开源音频基础模型全面解析

Kimi-Audio 的 TTS 效果如何?

Qwen 的训练数据是怎么做的?

GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比

如何低成本生成高质量指令微调数据?

掌握RAG:投入生产前要评估的8个场景

掌握RAG:如何评估RAG的LLM

掌握RAG:如何在部署后观察您的RAG

掌握RAG:如何选择嵌入模型

基础模型中的新范式:为什么o1是不同的,以及它将如何改变LLM应用

Semantic token和连续特征在SLLM下的对比

从数量到质量:通过自引导数据选择来提升语言模型性能以实现指令调优

RLHF及其变体:进展和实际工程见解

胖东来与京东联手了

Freeze-Omni: 低延迟语音对话模型

Fully Sharded Data Parallelism (FSDP)

什么是置信度?置信度模型怎么做?

晦涩难懂的 Flow matching!图形化理解

中文指令微调数据,质量就是一切!

基于 LLM 的文本泛化

CosyVoice 2:基于大型语言模型的可扩展流式语音合成技术

Mini-Omni2: with Vision, Speech and Duplex Capabilities

FSQ的原理与VQ-VAE的区别和联系

大模型并行训练的一些知识——极简版

亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南

要用 AI 裁员 50% 的千亿独角兽,公开认错,重启招聘!

一些文档去重算法

single codebook和dual codebook在LLM中向量量化上有什么区别?

胖东来与京东联手了

一些文档去重算法

最佳的指令数据应当是什么样的?

Prefill-Decode分离

亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南

Simhash-文档去重算法简介

校园篇-北京信息科技大学2025

RLHF 入门,高手勿进!

最佳的指令数据应当是什么样的?

CosyVoice:一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器

Model Context Protocol (MCP)

MCP(模型上下文协议)是什么以及它是如何运作的

压力测试LLMs——大海捞针实现

picture.image

近日还在想要不要建个群呢?感觉自己是个i人,又懒,打理不来呀。但这个想法不自主的就冒出来了,还是要思考下。天人交战良久,得,一位朋友私我要入群,那就建一个吧,感谢。

欢迎入群,希望能有一个交流的地方。但群主是个i人,没事儿让他想静静,有事儿圈他。

群主不是万能的,不是万能的,不是能的,能的。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论