Gemini 2.5 Pro与OpenAI 多模态模型生图齐发，创意类工作将要变天？ - 文章 - 开发者社区

Google DeepMind昨日发布了其最新模型Gemini 2.5，首发版本为Pro Experimental，在多个基准测试中达到了业界领先水平。

picture.image

Gemini 2.5具有以下技术特点：

在lmarena上也获得了突出的的成绩，

在所有类别中均排名首位，在数学、创意写作、指令跟随和上下文长度中排名第一，

在web开发方面仅次与cladue 3.7。

picture.image

这是官方提供的编程例子：

该模型已经可以在aistudio上免费使用，笔者使用昨天“治愈老奶奶”的例子（Qwen2.5-VL-32B 更小更聪明！与grok、gemini同台打造“治愈老奶奶”，谁更强？）进行了实测，要求它使用纯js canvas绘制治愈老奶奶插画，Gemini 2.5一次性给出了正确插画实现。

picture.image

另外，OpenAI也在昨天发布了多模态大模型具备生图能力，对标 gemini-2.0-flash-exp-image-generation，它的一致性、真实性、细节控制和表现上令人惊叹，同时它可以更好的

利用 4o 固有的知识库和聊天上下文进而获得更好的性能表现。

picture.image

这也表明，未来多模态大模型的方向将是既能读图读文，又能生文生图的复合模型，

这样的模型将促成

真正意义上的多模态对话

，使其更贴近人类自然的交流方式

。这些技术正在快速迭代，生产可用性越来越高。

因此，创意类（内容、编程）工作将受最先受到冲击，业务模式将因AI发生颠覆性改变，这将会给生态链上的所有企业和个人带来巨大的机遇与考验。

公众号后台回复“进群”入群讨论。