大家好,我是刘聪NLP。
你还记得曾经国外开源的神-Mistral吗?
2023年,开源大模型百花齐放,但基本上都是Dense模型,
大家都猜测,ChatGPT内部已经使用MoE专家模型架构了,
但那时都还在追赶中,Dense模型都还没训练好,何谈MoE模型,
但在2023年12月,Mistral AI 开源了Mixtral 8x7B模型,应该是首个开源MoE模型,
也是引得一阵讨论,
到现在,MoE架构已经成为了标准,DeepSeek、K2、Qwen,超大模型基本上都是MoE架构,
国外闭源模型确实是顶流的存在,但论开源,那国内绝对是独一档的存在,
国外,如果你说期待谁开源,一个是llama,另一个就是mistral了。
今天,Mistral AI又开源了4个尺寸的新模型,这次都是多模态理解模型。
Mistral-Large-3,总参数为675B,41B 激活参数,MoE 架构,对标DeepSeek-V3.1、K2。
三个小模型Ministral-3,分别是3B,8B,14B,Dense模型,有 pretraining、instruct、reasoning 三个版本,对标Qwen3-VL。
HF:
https://huggingface.co/collections/mistralai/ministral-3
https://huggingface.co/collections/mistralai/mistral-large-3
675B模型,我平时企业toB也用不到,几个小尺寸模型还蛮吸引我的。
我本地部署了Ministral-3-8B-Instruct-2512和Qwen3-VL-8B-Instruct,进行一波多模态能力测试,看看效果到底如何。
懒人不爱看版本:
- 整体Ministral-3-8B的指令遵循不如Qwen3-VL-8B好
- 8B模型尺寸都太小,对于世界知识、空间变换、图片排序、表格识别都回答不好,但感觉Ministral-3更离谱
- OCR识别、理解计算,Ministral-3-8B不如Qwen3-VL-8B
- 报告分析、数据题,两个模型都相差不大,大多数都ok
- Ministral-3-8B不知道菇娘儿是啥,数数能数对
PS:均采用vllm进行部署,采用官方示例中提供的temperature,进行调用。
OCR识别
Prompt:请识别图中的文本内容,言简意赅。
Ministral-3-8B:文字识别正确,但我已经说言简意赅了,还是有额外的输出
Qwen3-VL-8B:文字识别正确,言简意赅
Prompt:请识别图中的文本内容,言简意赅。
Ministral-3-8B:竖版识别理解不了,幻觉很严重
Qwen3-VL-8B:回答正确,言简意赅
表格识别
Ministral-3-8B:不对,但没有合并单元格
Qwen3-VL-8B:部分合并单元格错误
理解计算
Prompt:找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?
2024年总和=1340312.8
Ministral-3-8B:找最大数找错了,同时没有理解全国值可以相加。
Qwen3-VL-8B:最大值找对了,但是总数算错了,导致比例不对。
报告分析
Prompt:请帮我解读一下报告内容。
Ministral-3-8B:分析的正确
Qwen3-VL-8B:分析的正确
目标识别
Prompt:告诉我桌子上菇娘儿的个数。 (好多南方的小伙伴没吃过,超级好吃哟~)
Ministral-3-8B:数对了,但是脱壳的蒜头是啥。。。
Qwen3-VL-8B:回答正确,解释也正确
目标对比
Prompt:找到图片中奔跑的人,并返回行列序号,比如:几行几列。 正确答案是6行10列
Ministral-3-8B:错误
Qwen3-VL-8B:错误
数学做题
Prompt:解题
Ministral-3-8B:第一问第二问对了,第三问超出了我设置的最大长度~
Qwen3-VL-8B:回答正确
图片排序
Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。
正确答案CADB,走到商店,买雪糕,滑倒,打到脸上
Ministral-3-8B:不对
Qwen3-VL-8B:不对
空间变换
考察多模态模型对图像的空间转换能力。
Prompt:请回答。
Ministral-3-8B:不对
Qwen3-VL-8B:不对
色盲测试
Prompt:图片里有数字吗?如果有的话是什么?
正常者能读出6,红绿色盲者及红绿色弱者读成 5,而全色弱者则全然读不出上述的两个字。
Ministral-3-8B:错误
Qwen3-VL-8B:正确
世界知识
Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?
Ministral-3-8B:错误
Qwen3-VL-8B:错误
还有时钟问题、看图猜成语,也都全军覆没了。
最后, Ministral-3模型整体体验下来,我觉得是开源第一梯队,
但觉得不是同尺寸开源第一,
是一个好的开源模型选择,
但要看你具体的场景,
国外的开源模型,会因为Mistral AI,
再次兴起吗?
我更期待,Llama会跟我们带来什么。。。。
是的,Llama,很久远的模型了~
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!
