在这里插入图片描述
1. 核心目标
提出条件流匹配(CFM) 及其优化版本OT-CFM ,解决连续标准化流(CNF)中模拟ODE的困难,并通过最优传输减少路径交叉问题。
2. 关键概念
(1) Flow Matching (FM)
- • 问题 :直接求解CNF需模拟ODE,计算复杂。
- • 方案 :通过回归损失估计向量场
:
- •
其中
是连接先验分布
(如高斯分布)和目标分布
的“概率路径桥”。
(2) Conditional Flow Matching (CFM)
- • 核心创新 :引入隐变量
(目标分布样本)分解概率路径:
边界条件:
- •
(先验分布)
- •
(目标分布加噪声)
- • 损失函数 :
- • 优势 :梯度等价于FM损失,但避免了直接求解
。
在这里插入图片描述
(3) CFM的路径问题
- • 缺陷 :条件路径
可能出现交叉,导致训练不稳定:
CFM路径交叉; OT-CFM路径平直.
- • 原因 :独立采样 ( (x_0, x_1) ) 时,路径未考虑样本间的几何关系。
CFM
OT-CFM
3. OT-CFM:基于最优传输的改进
(1) 核心思想
- • 联合优化
的耦合分布
,使用最优传输最小化整体代价:
其中
是边际分布为
和
的联合分布集合。
- • 效果 :相近的
和
被配对,路径变为近似直线。
(2) 实现方式
- • Mini-batch OT :实际中全局最优
难求解,改用小批量样本近似最优传输对。
- • 路径变化 :
- • CFM路径:混乱交叉
- • OT-CFM路径:平直无交叉,训练更稳定。
4. 总结对比
| 方法 | 核心机制 | 路径特点 | 训练稳定性 | | FM | 直接回归
| 依赖桥函数设计 | 困难 | | CFM | 条件向量场
| 可能交叉 | 中等 | | OT-CFM | 最优传输配对
| 平直无交叉 | 更优 |
5. 应用与展望
- • 当前 :OT-CFM解决路径交叉问题,提升模型收敛性。
注 :本文数学推导严谨,需结合前两篇CFM系列文章(ODE基础、连续标准化流)理解。关键突破在于通过最优传输显式优化样本对耦合关系 ,显著改善概率路径的几何性质。
参考文献
点个「赞」+「在看」❤️
让我们知道这份文字有温暖到你,也是 我们持续 创作的最大动力!
推荐
Conditional Flow Matching : 常微分方程ODE、欧拉方法和Neural ODE
当 Normalizing flow 遇上语音生成:AI 说话变 “真人” 的秘密在这里!
深度剖析:Kimi - Audio 中 BigVGAN 的神奇作用
为什么说分布变换是 Normalizing flow 的「灵魂操作」?
MiniMax-Speech,零样本语音合成新突破,32 种语言轻松拿捏!
手把手教你创建 evol-instruct 数据集!附完整流程~
最新!SpeechLLM 综述:架构、能力、挑战与未来全揭秘
从数量到质量:通过自引导数据选择来提升语言模型性能以实现指令调优
GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比
基础模型中的新范式:为什么o1是不同的,以及它将如何改变LLM应用
从数量到质量:通过自引导数据选择来提升语言模型性能以实现指令调优
Fully Sharded Data Parallelism (FSDP)
CosyVoice 2:基于大型语言模型的可扩展流式语音合成技术
Mini-Omni2: with Vision, Speech and Duplex Capabilities
亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南
要用 AI 裁员 50% 的千亿独角兽,公开认错,重启招聘!
single codebook和dual codebook在LLM中向量量化上有什么区别?
亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南
CosyVoice:一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器
近日还在想要不要建个群呢?感觉自己是个i人,又懒,打理不来呀。但这个想法不自主的就冒出来了,还是要思考下。天人交战良久,得,一位朋友私我要入群,那就建一个吧,感谢。
欢迎入群,希望能有一个交流的地方。但群主是个i人,没事儿让他想静静,有事儿圈他。
群主不是万能的,不是万能的,不是能的,能的。
