llama 3.1终于开源！速览技术报告中最有意思的17个新要点 - 文章 - 开发者社区

在持续的leak之后，官方版终于出来了，llama3.1 8b、70b、405B均可下载。

还可以在hf-chat中试用新模型，支持对pdf的rag和网络检索。地址：https://huggingface.co/chat/models/meta-llama/Meta-Llama-3.1-405B-Instruct-FP8

基准评测结果，最大杯，很多数据集上都是赶超闭源的sonnet以及gpt4o。如下图： picture.image

论文全文有亿点点长，全文92页，速览一些有意思的点~

由此产生的缩放定律外推到 3.8 × 1025 FLOP，建议在 16.55T token上训练 402B 参数模型。

picture.image

两次 Llama3-405b 训练中断实际上是由“Server Chassis”（服务器机箱）故障造成的（有人坐在机箱上？）， 148 台 H100 在预训练期间挂了...

picture.image

picture.image

之前没见过这个，post training pipeline利用成对注释的偏好数据来训练，一个奖励模型用于early-stage rejection sampling，并试用DPO改进中间阶段的SFT模型(intermediary SFT models)

picture.image 6. 与 NeMo 论文（奖励模型 > LLM-作为评委）相比，他们发现两种方法之间的分歧率很高，并选择包含来自任一评委的最高评分样本

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

虽然在所有考试中都取得了非常好的成绩，什么科目表现最好？Llama3 405B 在 AP 物理方面击败了竞争对手（Claude 3.5 92.9 vs 78.6 ） - 并且还在 GMAT Quant、LSAT、AP Env Sci 和 Art History ）方面取得最高分

picture.image

人类偏好数据显示除更差的多语言和多轮编码性能，尤其是与 GPT-4o 相比；然而，GPT-4o 似乎针对人类偏好数据进行了非常优化（请参阅 LMSys 结果），因此这并不一定会导致实际任务的性能变差

picture.image

picture.image

论文中包含了大海捞针的细节。它们表明，在大海捞针问题中，一根针的检索精度为 100%，在四根针的大海捞针问题中，至少两根针的检索精度几乎为 100%。对于 128K 上下文模型来说有点夸张~ 并且还提到没有模型可以在 Llama 3.1 论文的参考文献中找到最老的论文（尽管对于一个人来说，可以在几秒钟内完成这件事），但是Llama 3.1 70B 可以通过相当简单的提示来解决它。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！