Microsoft推出了Phi-3 small(7B)、Phi-3 medium(14B)和Phi-3 vision。中型模型与Mixtral 8x22B、Llama 3 70B竞争,并击败了Command R+ 104B和GPT 3.5。
huggingface上可下载
Phi-3 small、Phi-3 medium简述:
🧮 Phi-3小型7B,Phi-3中型14B,指令版本支持高达128k上下文
🏆 Phi-3小型(7B):在MMLU上得分75.5;在AGI评估上得分43.9(> Mistral 7B或Llama 3 8B)
🥇 Phi-3中型(7B):在MMLU上得分78.0;在AGI评估上得分50.2(> Cohere命令R+或GPT3.5-Turbo)
🧠 训练于4.8万亿个token,包括合成和过滤的公共数据集,支持多语言(训练数据的10%)
⚖️ 经过SFT和DPO微调
🔡 新的分词器,词汇量为100,352
🔓 所有模型都在MIT下发布
🤗 在huggingface, Azure AI, 和ONNX上可用,现在在MIT许可下可用!
❌ 没有发布基础模型
❌ 关于数据集混合(多少合成,多少网络)没有详细信息
Phi-3 vision 简述:
📊 训练数据:500B视觉和文本token
📝 输出:根据输入生成文本
📅 日期:一个静态模型,训练于2024年3月15日截止的离线文本数据集。
🌐 发布类型:开放权重发布
🤩 Phi3 Vision 128k 演示:
https://huggingface.co/spaces/ysharma/Microsoft\_Phi-3-Vision-128k
Phi-3 small 128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
Phi-3 medium 128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
Phi-3 small 8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
Phi-3 medium 4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
Phi-3 Vision 128k Demo: https://huggingface.co/spaces/ysharma/Microsoft_Phi-3-Vision-128k
Phi-3 Vision 128k: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
https://x.com/reach_vb/status/1792949163249791383
https://x.com/_philschmid/status/1792934321407369532
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
