多模态大模型是未来的趋势,本文整理Top10(cmmmu-benchmark)开源中文多模态大模型,可以免费体验与部署试用:
1、Yi-VL系列
时间:2024-01-23
机构:零一万物,李开复带队孵化的AI2.0公司
模型: Yi-VL-6B、Yi-VL-34B
Github:
https://github.com/01-ai/Yi/tree/main/VL
LLM骨干:Yi-34B、Yi-6B
2、Qwen-vl
时间:2023-08-24
机构:阿里
模型: Qwen-vl-(chat) 开源;Qwen-VL-Plus、Qwen-VL-Max(MM-Bench-CN评测超过GPT-4V)是闭源的,但是可以体验demo
Github:
https://github.com/QwenLM/Qwen-VL
体验Demo:
https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary
LLM骨干:Qwen-7B
3、InternVL系列
时间:2023-12-21
机构:上海AI LAB以及一众高校
模型: InternVL-Chat-ViT-6B-Vicuna-7B、InternVL-Chat-ViT-6B-Vicuna-13B
Github:
https://github.com/OpenGVLab/InternVL
体验Demo:
https://internvl.opengvlab.com/
LLM骨干:Vicuna-7B、Vicuna-13B
4、Emu
时间:2023-12-21
机构:北京智源BAAI
模型:Emu-I、Emu w Decoder、 Emu2-Chat
Github:
https://github.com/baaivision/Emu
体验Demo:http://218.91.113.230:9002/
5、CogVLM
时间:2023-10-09
机构:智谱&清华
模型: CogVLM-17B
Github:
https://github.com/THUDM/CogVLM
体验Demo:http://36.103.203.44:7861/
LLM骨干:Vicuna-v1.5-7B
6、Chinese-LLaVa
时间:2023-04-17
机构:北京零速科技
模型: Chinese-LLaVA-Chinese-Llama-2-7B 、Chinese-LLaVA-Baichuan-7B
Github:
https://github.com/LinkSoul-AI/Chinese-LLaVA
体验Demo:
https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa
LLM骨干:Baichuan-7B、Chinese-Llama-2-7b
7、VisCPM
时间:2023-7-1
机构:面壁智能
模型:VisCPM-Chat-balance、 VisCPM-Chat-zhplus
Github:
https://github.com/OpenBMB/VisCPM
LLM骨干:CPM-Bee(10B)
8、mPLUG-Owl2
时间:2023-11-07
机构:阿里达摩院
模型: mPLUG-Owl2
Github:
https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
体验Demo:
https://modelscope.cn/studios/iic/mPLUG-Owl2/summary
LLM骨干:LLaMA-7B
附录:
- 中文评测榜单
https://cmmmu-benchmark.github.io/
CMMMU 包含了约 12000 道源自大学考试、测验和教科书的中文多模态问题。
- 最新研究综述
2024年1月24日腾讯AI LAB发布最新MM-LLMs研究综述,概述了模型架构和训练流程的一般设计公式。简要介绍了26个现有的MM-LLMs,每个模型都以其特定的公式为特征。回顾了MM-LLMs在主流基准测试上的性能,并总结了增强MM-LLMs效能的关键训练配方。最后,探索了MM-LLMs的有前景的发展方向,同时维护了一个实时跟踪网站:
MM-LLMs: Recent Advances in MultiModal Large Language Models
https://arxiv.org/pdf/2401.13601.pdf
- MM-LLM万能仓库:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models