微软一口气放出Phi-3系列三个模型(samll/medium/vision),开源可下载!

人工智能与算法增长营销数据中台

Microsoft推出了Phi-3 small(7B)、Phi-3 medium(14B)和Phi-3 vision。中型模型与Mixtral 8x22B、Llama 3 70B竞争,并击败了Command R+ 104B和GPT 3.5。

huggingface上可下载

picture.image

Phi-3 small、Phi-3 medium简述:

🧮 Phi-3小型7B,Phi-3中型14B,指令版本支持高达128k上下文

🏆 Phi-3小型(7B):在MMLU上得分75.5;在AGI评估上得分43.9(> Mistral 7B或Llama 3 8B)

🥇 Phi-3中型(7B):在MMLU上得分78.0;在AGI评估上得分50.2(> Cohere命令R+或GPT3.5-Turbo)

🧠 训练于4.8万亿个token,包括合成和过滤的公共数据集,支持多语言(训练数据的10%)

⚖️ 经过SFT和DPO微调

🔡 新的分词器,词汇量为100,352

🔓 所有模型都在MIT下发布

🤗 在huggingface, Azure AI, 和ONNX上可用,现在在MIT许可下可用!

❌ 没有发布基础模型

❌ 关于数据集混合(多少合成,多少网络)没有详细信息

picture.image

Phi-3 vision 简述:

📊 训练数据:500B视觉和文本token

📝 输出:根据输入生成文本

📅 日期:一个静态模型,训练于2024年3月15日截止的离线文本数据集。

🌐 发布类型:开放权重发布

🤩 Phi3 Vision 128k 演示:

https://huggingface.co/spaces/ysharma/Microsoft\_Phi-3-Vision-128k

picture.image


          
Phi-3 small 128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
          
Phi-3 medium 128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
          
Phi-3 small 8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
          
Phi-3 medium 4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
          
Phi-3 Vision 128k Demo: https://huggingface.co/spaces/ysharma/Microsoft_Phi-3-Vision-128k
          
Phi-3 Vision 128k: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
          
https://x.com/reach_vb/status/1792949163249791383
          
https://x.com/_philschmid/status/1792934321407369532
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论