Mosaic AI 开源dbrx：截至目前宇宙最强开源大模型，超越grok-1、mixtral


        
          
https://huggingface.co/databricks/dbrx-instruct  
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

picture.image

DBRX为已建立的开放LLM 刷新了新的SOTA
根据测试，它超越了GPT-3.5，并且与Gemini 1.0 Pro具有竞争力

“ 在我们考虑的几乎所有基准测试中，DBRX Instruct都超越或（在最坏的情况下）与GPT-3.5相匹配。在MMLU衡量的一般知识方面（73.7% vs. 70.0%），以及在HellaSwag（89.0% vs. 85.5%）和WinoGrande（81.8% vs. 81.6%）衡量的常识推理方面，DBRX Instruct的表现优于GPT-3.5。DBRX Instruct在HumanEval（70.1% vs. 48.1%）和GSM8k（72.8% vs. 57.1%）衡量的编程和数学推理方面尤其出色。

“ DBRX Instruct与Gemini 1.0 Pro和Mistral Medium具有竞争力。在Inflection Corrected MTBench、MMLU、HellaSwag和HumanEval方面，DBRX Instruct的得分高于Gemini 1.0 Pro，而Gemini 1.0 Pro在GSM8k方面更强。对于HellaSwag，DBRX Instruct和Mistral Medium的得分相似，而Mistral Medium在Winogrande和MMLU方面更强，DBRX Instruct在HumanEval、GSM8k和Inflection Corrected MTBench方面更强。

长文性能

“ DBRX Instruct在最多32K个令牌的上下文窗口中进行了训练。表3将其性能与Mixtral Instruct以及GPT-3.5 Turbo和GPT-4 Turbo API的最新版本在一系列长上下文基准测试（来自Lost in the Middle论文的KV-Pairs和HotpotQAXL，HotPotQA的修改版本，将任务扩展到更长的序列长度）中进行了比较。GPT-4 Turbo通常是这些任务中表现最好的模型。但是，有一个例外，DBRX Instruct在所有上下文长度和序列的所有部分中的表现都优于GPT-3.5 Turbo。DBRX Instruct和Mixtral Instruct的总体性能相似

除了作为通用LLM的优势外，它还是一种特别强大的代码模型，编程方面超过了诸如CodeLLaMA-70B之类的专业模型
MOE架构，总共132B个参数，其中36B参数在任何输入上都是活跃的，有16个专家，激活4个
推理速度比LLaMA2-70B快2倍，总参数量约为grok-1的40%
在12T的文本和代码数据集上训练，最大上下文长度为32K，数据精心筛选，对比之前的MPT系列，数据质量预估好2倍
使用curriculum learning进行预训练，在训练过程中改变数据混合方式，我们发现这可以大大提高模型质量
DBRX是在3072个通过3.2Tbps Infiniband连接的NVIDIA H100上训练的。构建DBRX的主要过程，包括预训练、后训练、评估、红队测试和优化，历时三个月
技术博客原文，有很多篇幅在炫技，他们的在Databricks平台厉害，端到端LLM预训练流程在过去十个月内的计算效率提高了近4倍。

Mosaic AI 开源dbrx： 截至目前宇宙最强开源大模型，超越grok-1、mixtral