Meta刚开源llama 3.2多模态,就被打败了~

大模型图像处理机器学习

2个系列:

  • 多模态:Llama 3.2 11B 和 90B,支持视觉多模态,LLama终于有了眼睛!
  • 端侧小模型:LLama 3.2 1B 和 3B

对于新增的多模态模型,只新增了图像编码器,将其集成到预训练模型中,没有更新语言模型参数,即插即用!

对于 Llama 3.2 中的 1B 和 3B 模型,直接使用8B、70B的logits蒸馏,比较常见的蒸馏方式,就是废卡。picture.image

虽然 LLama 系列终于有了视觉。但是,今天 allenai 开源了多模态 Molmo 72B 和 7B 模型。并且在视觉方面的表现全面超过了 3.2,太卷了~

picture.image

下表是目前知名多模态模型的横向对比,可能存在错误(claude生成的~)

BenchmarkMolmo-72BMolmo-7B-DMolmo-7B-OMolmoE-1BLlama 3.2 11BLlama 3.2 90BQwen-VL-72BGPT-4oClaude-3.5 SonnetQwen2-VL-7BGPT-4o-miniInternVL2-8BMiniCPM-V 2.6
AI2D96.393.290.786.462.475.3-------
ChartQA87.384.180.478.083.485.588.385.790.883.0-83.3-
VQAv286.585.685.383.975.278.1-------
DocVQA93.592.290.877.788.490.196.592.895.294.5-91.690.8
InfoVQA81.972.670.053.943.256.884.5--76.5-74.8-
TextVQA83.181.780.478.873.173.585.5--84.3-77.480.1
RealWorldQA75.270.767.560.4N/AN/A77.875.460.170.1-64.4-
MMMU54.145.339.334.941.749.364.569.168.354.160.051.849.8
MathVista58.651.644.534.051.557.370.563.867.758.252.458.360.6
OCRBench------877736788845785794852
MTVQA------30.927.825.726.3---
VCR_un easy------91.9391.5563.8589.7083.60-73.88
MMBench-EN------86.583.479.783.0-81.7-
MMStar------68.363.962.260.754.861.557.5
HallBench------58.155.049.950.646.145.248.1
Video-MME------71.2/77.871.9/71.275.0/81.363.3/69.0-54.0/56.960.9/63.6
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论