曾经开源的神Mistral,又开源4个尺寸新模型,附实测!

大模型机器学习算法

大家好,我是刘聪NLP。

你还记得曾经国外开源的神-Mistral吗?

2023年,开源大模型百花齐放,但基本上都是Dense模型,

大家都猜测,ChatGPT内部已经使用MoE专家模型架构了,

但那时都还在追赶中,Dense模型都还没训练好,何谈MoE模型,

但在2023年12月,Mistral AI 开源了Mixtral 8x7B模型,应该是首个开源MoE模型,

也是引得一阵讨论,

到现在,MoE架构已经成为了标准,DeepSeek、K2、Qwen,超大模型基本上都是MoE架构,

国外闭源模型确实是顶流的存在,但论开源,那国内绝对是独一档的存在,

国外,如果你说期待谁开源,一个是llama,另一个就是mistral了。

今天,Mistral AI又开源了4个尺寸的新模型,这次都是多模态理解模型。

Mistral-Large-3,总参数为675B,41B 激活参数,MoE 架构,对标DeepSeek-V3.1、K2。

picture.image

三个小模型Ministral-3,分别是3B,8B,14B,Dense模型,有 pretraining、instruct、reasoning 三个版本,对标Qwen3-VL。

picture.image

  
HFhttps://huggingface.co/collections/mistralai/ministral-3  
https://huggingface.co/collections/mistralai/mistral-large-3  

675B模型,我平时企业toB也用不到,几个小尺寸模型还蛮吸引我的。

我本地部署了Ministral-3-8B-Instruct-2512和Qwen3-VL-8B-Instruct,进行一波多模态能力测试,看看效果到底如何。

懒人不爱看版本:

  • 整体Ministral-3-8B的指令遵循不如Qwen3-VL-8B好
  • 8B模型尺寸都太小,对于世界知识、空间变换、图片排序、表格识别都回答不好,但感觉Ministral-3更离谱
  • OCR识别、理解计算,Ministral-3-8B不如Qwen3-VL-8B
  • 报告分析、数据题,两个模型都相差不大,大多数都ok
  • Ministral-3-8B不知道菇娘儿是啥,数数能数对

PS:均采用vllm进行部署,采用官方示例中提供的temperature,进行调用。

OCR识别

Prompt:请识别图中的文本内容,言简意赅。

picture.image

Ministral-3-8B:文字识别正确,但我已经说言简意赅了,还是有额外的输出

picture.image

Qwen3-VL-8B:文字识别正确,言简意赅

picture.image

Prompt:请识别图中的文本内容,言简意赅。

picture.image

Ministral-3-8B:竖版识别理解不了,幻觉很严重

picture.image

Qwen3-VL-8B:回答正确,言简意赅

picture.image

表格识别

picture.image

Ministral-3-8B:不对,但没有合并单元格

picture.image

Qwen3-VL-8B:部分合并单元格错误

picture.image

理解计算

Prompt:找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?

2024年总和=1340312.8

picture.image

Ministral-3-8B:找最大数找错了,同时没有理解全国值可以相加。

picture.image

Qwen3-VL-8B:最大值找对了,但是总数算错了,导致比例不对。

picture.image

报告分析

Prompt:请帮我解读一下报告内容。

picture.image

Ministral-3-8B:分析的正确

picture.image

Qwen3-VL-8B:分析的正确

picture.image

目标识别

Prompt:告诉我桌子上菇娘儿的个数。 (好多南方的小伙伴没吃过,超级好吃哟~)

picture.image

Ministral-3-8B:数对了,但是脱壳的蒜头是啥。。。

picture.image

Qwen3-VL-8B:回答正确,解释也正确

picture.image

目标对比

Prompt:找到图片中奔跑的人,并返回行列序号,比如:几行几列。 正确答案是6行10列

picture.image

Ministral-3-8B:错误

picture.image

Qwen3-VL-8B:错误

picture.image

数学做题

Prompt:解题

picture.image

Ministral-3-8B:第一问第二问对了,第三问超出了我设置的最大长度~

picture.image

Qwen3-VL-8B:回答正确

picture.image

图片排序

Prompt:根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

正确答案CADB,走到商店,买雪糕,滑倒,打到脸上

picture.image

Ministral-3-8B:不对

picture.image

Qwen3-VL-8B:不对

picture.image

空间变换

考察多模态模型对图像的空间转换能力。

Prompt:请回答。

picture.image

Ministral-3-8B:不对

picture.image

Qwen3-VL-8B:不对

picture.image

色盲测试

Prompt:图片里有数字吗?如果有的话是什么?

正常者能读出6,红绿色盲者及红绿色弱者读成 5,而全色弱者则全然读不出上述的两个字。

picture.image

Ministral-3-8B:错误

picture.image

Qwen3-VL-8B:正确

picture.image

世界知识

Prompt:朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

picture.image

Ministral-3-8B:错误

picture.image

Qwen3-VL-8B:错误

picture.image

还有时钟问题、看图猜成语,也都全军覆没了。

最后, Ministral-3模型整体体验下来,我觉得是开源第一梯队,

但觉得不是同尺寸开源第一,

是一个好的开源模型选择,

但要看你具体的场景,

国外的开源模型,会因为Mistral AI,

再次兴起吗?

我更期待,Llama会跟我们带来什么。。。。

是的,Llama,很久远的模型了~

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 veCLI- 命令行超级智能体的最佳实践
随着 ClaudeCode 的兴起,命令行 Agent 成了一个备受关注的领域,本次分享将重点介绍火山 veCLI- 命令行超级智能体的发展和演进历程,同时分享一些最佳实践和经验总结。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论