在持续的leak之后,官方版终于出来了,llama3.1 8b、70b、405B均可下载。
hf地址:https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
还可以在hf-chat中试用新模型,支持对pdf的rag和网络检索。地址:https://huggingface.co/chat/models/meta-llama/Meta-Llama-3.1-405B-Instruct-FP8
论文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
基准评测结果,最大杯,很多数据集上都是赶超闭源的sonnet以及gpt4o。如下图:
论文全文有亿点点长,全文92页,速览一些有意思的点~
- 如何获得使用约 15T token训练的 405b 模型?
由此产生的缩放定律外推到 3.8 × 1025 FLOP,建议在 16.55T token上训练 402B 参数模型。
- 论文包含对 24k H100 集群网络拓扑的详细描述
- 两次 Llama3-405b 训练中断实际上是由“Server Chassis”(服务器机箱)故障造成的(有人坐在机箱上?), 148 台 H100 在预训练期间挂了...
- 在训练过程中由于各种原因调整了训练数据——取得了很好的结果
- 之前没见过这个,post training pipeline利用成对注释的偏好数据来训练,一个奖励模型用于early-stage rejection sampling,并试用DPO改进中间阶段的SFT模型(intermediary SFT models)
6. 与 NeMo 论文(奖励模型 > LLM-作为评委)相比,他们发现两种方法之间的分歧率很高,并选择包含来自任一评委的最高评分样本
- 通过划分pretraining训练的专家来改进特定功能(例如编码或多语言生成),这些功能随后用于标记样本
- 避免使用翻译数据
- 高质量的prompt不够怎么办?只需要“ask humans” 就可以获得更多~
- 他们发现,对于长上下文模型,仅使用具有短上下文数据的 DPO 是可以的
- 如果标注人员可以在消息级别提供更精细的反馈,那么多步骤工具使用轨迹会更容易训练
- 采用了减少幻觉的后训练,将模型调整为“知道它知道什么”
- 对于某些阅读理解任务(SQuAD 和 RACE),Llama3 405B 实际上落后于 Mixtral 8x22B (这是未微调的base模型)
- 虽然在所有考试中都取得了非常好的成绩,什么科目表现最好?Llama3 405B 在 AP 物理方面击败了竞争对手(Claude 3.5 92.9 vs 78.6 ) - 并且还在 GMAT Quant、LSAT、AP Env Sci 和 Art History )方面取得最高分
- 人类偏好数据显示除更差的多语言和多轮编码性能,尤其是与 GPT-4o 相比;然而,GPT-4o 似乎针对人类偏好数据进行了非常优化(请参阅 LMSys 结果),因此这并不一定会导致实际任务的性能变差
- 论文还包括一种新的逐行 FP8 量化方法以及基于奖励分数的评估,评估其对输出质量的可忽略不计的影响
-
论文中包含了大海捞针的细节。它们表明,在大海捞针问题中,一根针的检索精度为 100%,在四根针的大海捞针问题中,至少两根针的检索精度几乎为 100%。对于 128K 上下文模型来说有点夸张~ 并且还提到没有模型可以在 Llama 3.1 论文的参考文献中找到最老的论文(尽管对于一个人来说,可以在几秒钟内完成这件事),但是Llama 3.1 70B 可以通过相当简单的提示来解决它。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读