Open LLM榜单：MoE、DPO - 文章 - 开发者社区

从HuggingFace开源LLM评测榜单Top12看未来大模型关键技术趋势：  **MoE**  **与**  **DPO** ；MoE把模型  **做大、做好** ；DPO把模型做得  **更好** 。

1、从榜单Model名称来看，Top12里面包含MoE与DPO就占到了 8 个

2、MoE把规模做起来，效果会上去，但是DPO会把效果进一步提升

76.23分 Rank 4th moreh/MoMo-70B-lora-1.8.4-DPO

（This is a Direct Preference Optimization(DPO) version of v1.4）

74.67分

Rank 8th moreh/MoMo-70B-LoRA-V1.4

3、榜单Top3都是MoE-60B大模型，由cloudyu训练；另外cloudyu昨天还开源了一个 1200亿 的MoE大模型cloudyu/Qwen-72Bx2-MoE-120B

picture.image

MoE最新相关Paper

1、DeepSeek MoE 16B 发布技术报告，模型开源


          
论文题目：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
          
论文链接：https://arxiv.org/abs/2401.06066
          
已开源Github：https://github.com/deepseek-ai/DeepSeek-MoE

国产开源MoE大模型

它的表现完全不输给密集的Llama 2-7B模型，计算量却仅有 40% 。特别是在数学和代码能力上对Llama形成了碾压。

除了性能表现优异，DeepSeek MoE基于自研MoE新架构 节约计算量

相比于传统的MoE架构，DeepSeek拥有 更细粒度专家划分 。在总参数量一定的情况下，传统模型分出N个专家，而DeepSeek可能分出2N个。
每次执行任务时选择的专家数量也是传统模型的2倍，所以总体使用的参数量也不变，但选择的 自由度增加 了。这种分割策略允许更灵活和适应性的激活专家组合，从而提高了模型在不同任务上的准确性和知识获取的针对性。

picture.image

2、万亿大模型： Blending Is All You Need


          
论文题目：Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
          
论文链接：https://arxiv.org/abs/2401.02994
          
模型：https://huggingface.co/ChaiML

研究背景：

当前对话AI的趋势是开发具有大量参数的模型，如ChatGPT，以生成更好的聊天响应，但这需要大量的计算资源和内存。
研究者们提出了一个问题：多个较小的模型是否可以协同工作，实现与大型模型相匹敌或更好的性能。

方法介绍：

引入了一种名为“Blending”的方法，通过 随机选择多个基础聊天AI模型 来生成响应，从而实现模型的协同工作。
Blending方法在对话过程中允许不同的聊天AI相互影响，共同创造更吸引人的对话。

实验结论：

Blending方法不仅在用户参与度上超过了每个单独的系统，而且在某些情况下甚至超过了大型模型GPT3.5。
Blending方法的推理成本与单个小型聊天AI相当，这意味着在不增加计算成本的情况下，可以显著提高用户的对话体验。

图表显示第30天留存率和用户粘性

picture.image

DPO资源整合

RLHF一直是生成式AI训练的老大难问题：

资源消耗大，需要跑4个模型：Reward M、Critic M、Ref M、PPO M
不稳定，对RM依赖较大

DPO是最新的最高效的RLHF训练方法，已经被重复实践过。

1、DPO QLoRA训练

Code参考：Anima基于QLoRA+DPO的低成本RLHF训练

https://github.com/lyogavin/Anima/tree/main/rlhf

Ainima 33b dpo效果对比：答案更丰富


          
问题1: 世界上最长的河流是什么？
          

          
原模型回答 ：尼罗河。
          

          
DPO训练模型回答：世界上最长的河流是尼罗河。它从非洲西部开始，经过苏丹、埃及、肯尼亚、坦桑尼亚和肯尼亚等国家，向东方流入 Mediterranean Sea 海。它有约6650公里长度，是地球上第二长的河流之一（次于亚马逊川）。尼罗河源头位于拉比山群中心，流经多个湖泊，包括天池、白 Nilometer 、布加利亚湖、瓦拉湖、贾格纳湖、太古湖、阿尔卑斯湖、亚当湖、亚特提克湖、亚历山大湖、亚喀拉沙湖、亚威拉湖、亚姆拉湖
          

          
问题2: 水的化学式是什么？
          

          
原模型回答 ：H2O
          

          
DPO训练模型回答 ：水的化学式为H₂O。其中“H”代表氢原子、“О”代表氧原子。水分解成两个氢原子和一个氧原子，形成了水分子

2、DPO训练框架：trl

https://github.com/huggingface/trl/blob/main/examples/research\_projects/stack\_llama\_2/scripts/dpo\_llama2.py

PS：封面图片来源Open LLM