从HuggingFace开源LLM评测榜单Top12看未来大模型关键技术趋势: **MoE** **与** **DPO** ;MoE把模型 **做大、做好** ;DPO把模型做得 **更好** 。
1、从榜单Model名称来看,Top12里面包含MoE与DPO就占到了 8 个
2、MoE把规模做起来,效果会上去,但是DPO会把效果进一步提升
- 76.23分 Rank 4th moreh/MoMo-70B-lora-1.8.4-DPO
- (This is a Direct Preference Optimization(DPO) version of v1.4)
-
74.67分
Rank 8th moreh/MoMo-70B-LoRA-V1.4
3、榜单Top3都是MoE-60B大模型,由cloudyu训练;另外cloudyu昨天还开源了一个 1200亿 的MoE大模型cloudyu/Qwen-72Bx2-MoE-120B
MoE最新相关Paper
1、DeepSeek MoE 16B 发布技术报告,模型开源
论文题目:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
论文链接:https://arxiv.org/abs/2401.06066
已开源Github:https://github.com/deepseek-ai/DeepSeek-MoE
- 国产开源MoE大模型
它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有 40% 。特别是在数学和代码能力上对Llama形成了碾压。
- 除了性能表现优异,DeepSeek MoE基于自研MoE新架构 节约计算量
- 相比于传统的MoE架构,DeepSeek拥有 更细粒度专家划分 。在总参数量一定的情况下,传统模型分出N个专家,而DeepSeek可能分出2N个。
- 每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的 自由度增加 了。这种分割策略允许更灵活和适应性的激活专家组合,从而提高了模型在不同任务上的准确性和知识获取的针对性。
2、万亿大模型: Blending Is All You Need
论文题目:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
论文链接:https://arxiv.org/abs/2401.02994
模型:https://huggingface.co/ChaiML
研究背景:
- 当前对话AI的趋势是开发具有大量参数的模型,如ChatGPT,以生成更好的聊天响应,但这需要大量的计算资源和内存。
- 研究者们提出了一个问题:多个较小的模型是否可以协同工作,实现与大型模型相匹敌或更好的性能。
方法介绍:
- 引入了一种名为“Blending”的方法,通过 随机选择多个基础聊天AI模型 来生成响应,从而实现模型的协同工作。
- Blending方法在对话过程中允许不同的聊天AI相互影响,共同创造更吸引人的对话。
实验结论:
- Blending方法不仅在用户参与度上超过了每个单独的系统,而且在某些情况下甚至超过了大型模型GPT3.5。
- Blending方法的推理成本与单个小型聊天AI相当,这意味着在不增加计算成本的情况下,可以显著提高用户的对话体验。
图表显示第30天留存率和用户粘性
DPO资源整合
RLHF一直是生成式AI训练的老大难问题:
- 资源消耗大,需要跑4个模型:Reward M、Critic M、Ref M、PPO M
- 不稳定,对RM依赖较大
DPO是最新的最高效的RLHF训练方法,已经被重复实践过。
1、DPO QLoRA训练
Code参考:Anima基于QLoRA+DPO的低成本RLHF训练
https://github.com/lyogavin/Anima/tree/main/rlhf
Ainima 33b dpo效果对比: 答案更丰富
问题1: 世界上最长的河流是什么?
原模型回答 :尼罗河。
DPO训练模型回答:世界上最长的河流是尼罗河。它从非洲西部开始,经过苏丹、埃及、肯尼亚、坦桑尼亚和肯尼亚等国家,向东方流入 Mediterranean Sea 海。它有约6650公里长度,是地球上第二长的河流之一(次于亚马逊川)。尼罗河源头位于拉比山群中心,流经多个湖泊,包括天池、白 Nilometer 、布加利亚湖、瓦拉湖、贾格纳湖、太古湖、阿尔卑斯湖、亚当湖、亚特提克湖、亚历山大湖、亚喀拉沙湖、亚威拉湖、亚姆拉湖
问题2: 水的化学式是什么?
原模型回答 :H2O
DPO训练模型回答 :水的化学式为H₂O。其中“H”代表氢原子、“О”代表氧原子。水分解成两个氢原子和一个氧原子,形成了水分子
2、DPO训练框架:trl
PS:封面图片来源Open LLM
