Open LLM榜单:MoE、DPO

从HuggingFace开源LLM评测榜单Top12看未来大模型关键技术趋势:  **MoE**  **与**  **DPO** ;MoE把模型  **做大、做好** ;DPO把模型做得  **更好**

1、从榜单Model名称来看,Top12里面包含MoE与DPO就占到了 8

2、MoE把规模做起来,效果会上去,但是DPO会把效果进一步提升

  • 76.23分 Rank 4th moreh/MoMo-70B-lora-1.8.4-DPO
  • (This is a Direct Preference Optimization(DPO) version of v1.4)
  • 74.67分

    Rank 8th moreh/MoMo-70B-LoRA-V1.4

3、榜单Top3都是MoE-60B大模型,由cloudyu训练;另外cloudyu昨天还开源了一个 1200亿 的MoE大模型cloudyu/Qwen-72Bx2-MoE-120B

picture.image

picture.image

MoE最新相关Paper

1、DeepSeek MoE 16B 发布技术报告,模型开源


          
论文题目:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
          
论文链接:https://arxiv.org/abs/2401.06066
          
已开源Github:https://github.com/deepseek-ai/DeepSeek-MoE
      
  • 国产开源MoE大模型

它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有 40% 。特别是在数学和代码能力上对Llama形成了碾压。

  • 除了性能表现优异,DeepSeek MoE基于自研MoE新架构 节约计算量
  • 相比于传统的MoE架构,DeepSeek拥有 更细粒度专家划分 。在总参数量一定的情况下,传统模型分出N个专家,而DeepSeek可能分出2N个。
  • 每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的 自由度增加 了。这种分割策略允许更灵活和适应性的激活专家组合,从而提高了模型在不同任务上的准确性和知识获取的针对性。

picture.image

2、万亿大模型: Blending Is All You Need


          
论文题目:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
          
论文链接:https://arxiv.org/abs/2401.02994
          
模型:https://huggingface.co/ChaiML
      

研究背景:

  • 当前对话AI的趋势是开发具有大量参数的模型,如ChatGPT,以生成更好的聊天响应,但这需要大量的计算资源和内存。
  • 研究者们提出了一个问题:多个较小的模型是否可以协同工作,实现与大型模型相匹敌或更好的性能。

方法介绍:

  • 引入了一种名为“Blending”的方法,通过 随机选择多个基础聊天AI模型 来生成响应,从而实现模型的协同工作。
  • Blending方法在对话过程中允许不同的聊天AI相互影响,共同创造更吸引人的对话。

实验结论:

  • Blending方法不仅在用户参与度上超过了每个单独的系统,而且在某些情况下甚至超过了大型模型GPT3.5。
  • Blending方法的推理成本与单个小型聊天AI相当,这意味着在不增加计算成本的情况下,可以显著提高用户的对话体验。

图表显示第30天留存率和用户粘性

picture.image

DPO资源整合

RLHF一直是生成式AI训练的老大难问题:

  • 资源消耗大,需要跑4个模型:Reward M、Critic M、Ref M、PPO M
  • 不稳定,对RM依赖较大

DPO是最新的最高效的RLHF训练方法,已经被重复实践过。

1、DPO QLoRA训练

Code参考:Anima基于QLoRA+DPO的低成本RLHF训练

https://github.com/lyogavin/Anima/tree/main/rlhf

Ainima 33b dpo效果对比: 答案更丰富


          
问题1: 世界上最长的河流是什么?
          

          
原模型回答 :尼罗河。
          

          
DPO训练模型回答:世界上最长的河流是尼罗河。它从非洲西部开始,经过苏丹、埃及、肯尼亚、坦桑尼亚和肯尼亚等国家,向东方流入 Mediterranean Sea 海。它有约6650公里长度,是地球上第二长的河流之一(次于亚马逊川)。尼罗河源头位于拉比山群中心,流经多个湖泊,包括天池、白 Nilometer 、布加利亚湖、瓦拉湖、贾格纳湖、太古湖、阿尔卑斯湖、亚当湖、亚特提克湖、亚历山大湖、亚喀拉沙湖、亚威拉湖、亚姆拉湖
          

          
问题2: 水的化学式是什么?
          

          
原模型回答 :H2O
          

          
DPO训练模型回答 :水的化学式为H₂O。其中“H”代表氢原子、“О”代表氧原子。水分解成两个氢原子和一个氧原子,形成了水分子
      

2、DPO训练框架:trl

https://github.com/huggingface/trl/blob/main/examples/research\_projects/stack\_llama\_2/scripts/dpo\_llama2.py

PS:封面图片来源Open LLM

0
0
0
0
评论
未登录
暂无评论