Mosaic AI 开源dbrx: 截至目前宇宙最强开源大模型,超越grok-1、mixtral


        
          
https://huggingface.co/databricks/dbrx-instruct  
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm  

      

picture.image

  • DBRX为已建立的开放LLM 刷新了新的SOTA
  • 根据测试,它超越了GPT-3.5,并且与Gemini 1.0 Pro具有竞争力

“ 在我们考虑的几乎所有基准测试中,DBRX Instruct都超越或(在最坏的情况下)与GPT-3.5相匹配。在MMLU衡量的一般知识方面(73.7% vs. 70.0%),以及在HellaSwag(89.0% vs. 85.5%)和WinoGrande(81.8% vs. 81.6%)衡量的常识推理方面,DBRX Instruct的表现优于GPT-3.5。DBRX Instruct在HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)衡量的编程和数学推理方面尤其出色。

“ DBRX Instruct与Gemini 1.0 Pro和Mistral Medium具有竞争力。在Inflection Corrected MTBench、MMLU、HellaSwag和HumanEval方面,DBRX Instruct的得分高于Gemini 1.0 Pro,而Gemini 1.0 Pro在GSM8k方面更强。对于HellaSwag,DBRX Instruct和Mistral Medium的得分相似,而Mistral Medium在Winogrande和MMLU方面更强,DBRX Instruct在HumanEval、GSM8k和Inflection Corrected MTBench方面更强。

  • 长文性能

“ DBRX Instruct在最多32K个令牌的上下文窗口中进行了训练。表3将其性能与Mixtral Instruct以及GPT-3.5 Turbo和GPT-4 Turbo API的最新版本在一系列长上下文基准测试(来自Lost in the Middle论文的KV-Pairs和HotpotQAXL,HotPotQA的修改版本,将任务扩展到更长的序列长度)中进行了比较。GPT-4 Turbo通常是这些任务中表现最好的模型。但是,有一个例外,DBRX Instruct在所有上下文长度和序列的所有部分中的表现都优于GPT-3.5 Turbo。DBRX Instruct和Mixtral Instruct的总体性能相似

  • 除了作为通用LLM的优势外,它还是一种特别强大的代码模型,编程方面超过了诸如CodeLLaMA-70B之类的专业模型

  • MOE架构,总共132B个参数,其中36B参数在任何输入上都是活跃的,有16个专家,激活4个

  • 推理速度比LLaMA2-70B快2倍,总参数量约为grok-1的40%

  • 在12T的文本和代码数据集上训练,最大上下文长度为32K,数据精心筛选,对比之前的MPT系列,数据质量预估好2倍

  • 使用curriculum learning进行预训练,在训练过程中改变数据混合方式,我们发现这可以大大提高模型质量

  • DBRX是在3072个通过3.2Tbps Infiniband连接的NVIDIA H100上训练的。构建DBRX的主要过程,包括预训练、后训练、评估、红队测试和优化,历时三个月

  • 技术博客原文,有很多篇幅在炫技,他们的在Databricks平台厉害,端到端LLM预训练流程在过去十个月内的计算效率提高了近4倍。

0
0
0
0
评论
未登录
暂无评论