llama405b 接近gpt4o,蒸馏后的8b、70b性能大幅飙升!

书接上回,随着即将开源,leak的信息越来越多。包括权重已经可下载了,更多的仓库在hf传,但是随后又都被删掉了,网上还是能找到很多下载的地方,模型卡的存档快照还可以看到。今天可以看到一些详细信息,包括基准评测结果,秒天秒地!

Meta Llama 3.1 多语言大模型 (LLM) 集合是预训练和指令调整的生成模型的集合,大小为 8B、70B 和 405B(文本输入/文本输出)。Llama 3.1 指令调整的纯文本模型(8B、70B、405B)针对多语言对话用例 进行了优化,并且在常见行业基准上优于许多可用的开源和封闭式聊天模型。所有模型均为128k上下文,数据时间截止到2023年12月。

模型开发商:Meta

模型架构 :Llama 3.1 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。

Training DataParamsInput modalitiesOutput modalitiesContext lengthGQAToken countKnowledge cutoff
Llama 3.1 (text only)A new mix of publicly available online data.8BMultilingual TextMultilingual Text and code128kYes15T+2023 年 12 月
70BMultilingual TextMultilingual Text and code128kYes
405BMultilingual TextMultilingual Text and code128kYes

使用自定义训练库、Meta 定制的 GPU 集群以及用于预训练的生产基础设施。还在生产基础设施上进行了微调、注释和评估。

训练能耗 训练在 H100-80GB(TDP 为 700W)类型硬件上累计使用了 3930 万个 GPU 计算小时,如下表所示。训练时间是训练每个模型所需的总 GPU 时间,功耗是所使用的每个 GPU 设备的峰值功率容量,并根据功率使用效率进行调整。

Training Time (GPU hours)Training Power Consumption (W)Training Location-Based Greenhouse Gas Emissions
(tons CO2eq)
Training Market-Based Greenhouse Gas Emissions
(tons CO2eq)
Llama 3.1 8B1.46M7004200
Llama 3.1 70B7.0M7002,0400
Llama 3.1 405B30.84M7008,9300
Total39.3M11,3900

Benchmark scores

Base pretrained models

CategoryBenchmark# ShotsMetricLlama 3 8BLlama 3.1 8BLlama 3 70BLlama 3.1 70BLlama 3.1 405B
GeneralMMLU5macro_avg/acc_char66.766.779.579.385.2
MMLU PRO (CoT)5macro_avg/acc_char36.237.155.053.861.6
AGIEval English3-5average/acc_char47.147.863.064.671.6
CommonSenseQA7acc_char72.675.083.884.185.8
Winogrande5acc_char-60.5-83.386.7
BIG-Bench Hard (CoT)3average/em61.164.281.381.685.9
ARC-Challenge25acc_char79.479.793.192.996.1
Knowledge reasoningTriviaQA-Wiki5em78.577.689.789.891.8
Reading comprehensionSQuAD1em76.477.085.681.889.3
QuAC (F1)1f144.444.951.151.153.6
BoolQ0acc_char75.775.079.079.480.0
DROP (F1)3f158.459.579.779.684.8

Instruction tuned models

CategoryBenchmark# ShotsMetricLlama 3 8B InstructLlama 3.1 8B InstructLlama 3 70B InstructLlama 3.1 70B InstructLlama 3.1 405B Instruct
GeneralMMLU5macro_avg/acc68.569.482.083.687.3
MMLU (CoT)0macro_avg/acc65.373.080.986.088.6
MMLU PRO (CoT)5micro_avg/acc_char45.548.363.465.173.3
IFEval76.880.482.987.588.6
ReasoningARC-C0acc82.483.494.494.896.9
GPQA0em34.630.439.541.750.7
MuSR0correct56.345.755.158.156.7
CodeHumanEval0pass@160.472.681.780.589.0
MBPP ++ base version0pass@170.672.882.586.088.6
Multipl-E HumanEval0pass@150.865.575.2
Multipl-E MBPP0pass@152.462.065.7
MathGSM-8K (CoT)8em_maj1@180.684.593.095.196.8
MATH (CoT)0final_em29.151.951.068.073.8
Tool UseAPI-Bank0acc83.682.685.190.092.0
Berkeley Function Calling0acc76.176.183.085.188.5
Gorilla Benchmark API Bench0acc8.88.214.729.735.3
Nexus (0-shot)0macro_avg/acc37.638.547.856.758.7
MultilingualMultilingual MGSM8em-68.2-85.690.3

Multilingual benchmarks

CategoryBenchmarkLanguageLlama 3.1 8BLlama 3.1 70BLlama 3.1 405B
GeneralMMLU (5-shot, macro_avg/acc)Portuguese62.1280.1384.95
Spanish62.4580.0585.08
Italian61.6380.485.04
German60.5979.2784.36
French62.3479.8284.66
Hindi50.8874.5280.31
Thai50.3272.9578.21

详细地址:https://web.archive.org/web/20240722214257/https://huggingface.co/huggingface-test1/test-model-1

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
评论
未登录
暂无评论