llama 3.1终于开源!速览技术报告中最有意思的17个新要点

技术

在持续的leak之后,官方版终于出来了,llama3.1 8b、70b、405B均可下载。

hf地址:https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

还可以在hf-chat中试用新模型,支持对pdf的rag和网络检索。地址:https://huggingface.co/chat/models/meta-llama/Meta-Llama-3.1-405B-Instruct-FP8

论文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

基准评测结果,最大杯,很多数据集上都是赶超闭源的sonnet以及gpt4o。如下图:picture.image

论文全文有亿点点长,全文92页,速览一些有意思的点~

  1. 如何获得使用约 15T token训练的 405b 模型?

由此产生的缩放定律外推到 3.8 × 1025 FLOP,建议在 16.55T token上训练 402B 参数模型。picture.image

  1. 论文包含对 24k H100 集群网络拓扑的详细描述

picture.image

picture.image

  1. 两次 Llama3-405b 训练中断实际上是由“Server Chassis”(服务器机箱)故障造成的(有人坐在机箱上?), 148 台 H100 在预训练期间挂了...

picture.image

  1. 在训练过程中由于各种原因调整了训练数据——取得了很好的结果

picture.image

  1. 之前没见过这个,post training pipeline利用成对注释的偏好数据来训练,一个奖励模型用于early-stage rejection sampling,并试用DPO改进中间阶段的SFT模型(intermediary SFT models)

picture.image6. 与 NeMo 论文(奖励模型 > LLM-作为评委)相比,他们发现两种方法之间的分歧率很高,并选择包含来自任一评委的最高评分样本

picture.image

  1. 通过划分pretraining训练的专家来改进特定功能(例如编码或多语言生成),这些功能随后用于标记样本

picture.image

  1. 避免使用翻译数据

picture.image

  1. 高质量的prompt不够怎么办?只需要“ask humans” 就可以获得更多~picture.image
  2. 他们发现,对于长上下文模型,仅使用具有短上下文数据的 DPO 是可以的

picture.image

  1. 如果标注人员可以在消息级别提供更精细的反馈,那么多步骤工具使用轨迹会更容易训练

picture.image

picture.image

  1. 采用了减少幻觉的后训练,将模型调整为“知道它知道什么”

picture.image

  1. 对于某些阅读理解任务(SQuAD 和 RACE),Llama3 405B 实际上落后于 Mixtral 8x22B (这是未微调的base模型)

picture.image

  1. 虽然在所有考试中都取得了非常好的成绩,什么科目表现最好?Llama3 405B 在 AP 物理方面击败了竞争对手(Claude 3.5 92.9 vs 78.6 ) - 并且还在 GMAT Quant、LSAT、AP Env Sci 和 Art History )方面取得最高分

picture.image

  1. 人类偏好数据显示除更差的多语言和多轮编码性能,尤其是与 GPT-4o 相比;然而,GPT-4o 似乎针对人类偏好数据进行了非常优化(请参阅 LMSys 结果),因此这并不一定会导致实际任务的性能变差

picture.image

  1. 论文还包括一种新的逐行 FP8 量化方法以及基于奖励分数的评估,评估其对输出质量的可忽略不计的影响

picture.image

  1. 论文中包含了大海捞针的细节。它们表明,在大海捞针问题中,一根针的检索精度为 100%,在四根针的大海捞针问题中,至少两根针的检索精度几乎为 100%。对于 128K 上下文模型来说有点夸张~ 并且还提到没有模型可以在 Llama 3.1 论文的参考文献中找到最老的论文(尽管对于一个人来说,可以在几秒钟内完成这件事),但是Llama 3.1 70B 可以通过相当简单的提示来解决它。

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论