什么样的魔力让Gemini 2.0 爆冷抢了OpenAI风头，开辟LLM应用2025新方向 - 文章 - 开发者社区

昨日，OpenAI直播活动第五日，Sam Altman终于出现，宣布了苹果产品全面接入OpenAI 模型服务，但这一日热度却掉到开播以来最低。

这是什么原因呢？首先，苹果联姻OpenAI早已不是什么新消息，更重要的是，在开播前一小时，Google CEO Picha 对外宣布Gemini 2.0发布，将原本在OpenAI上的吸引力都转移了过去。

要说Google模型升级已经不是第一次，在此之前都是Sam Altman阻击Google，没想到这次形势反转，更让Sam郁闷的是不知道是不是因为苹果带来的流量，OpenAI服务今日都一度处于宕机状态。

Gemini 2.0到底有什么魔力，能够一改颓势，逆势翻盘的呢？

picture.image

基础数据上看，Flash 2.0 的虽然模型参数量仅约8亿，但是其性能却不输主流大模型，比之前的pro版本强了不少，编程能力也比肩当前最强模型claude 3.5。

picture.image

然而，真正让它出圈的是强大的实时多模态能力，不仅能够理解图片视频等，还能够原生支持音频和图像输出，还支持多轮对话中对输出效果做精细化调整。看下面这个展示，Gemini不仅能下棋，还能在纸上画出来，并且风格和原来的一致，这就很有意思了。

picture.image

但是，虽然大部分功能都可以直接在线免费试用（https://aistudio.google.com/），但遗憾的是目前并未对所有用户开放生图能力（据说目前只有内部员工能够访问）。

picture.image

总的来说，本次发布将过去Google的期货变成了现实，它将文字、视频、音频原本分离的模态现在融合在了一起，在交互层面相较于OpenAI canvas的产品层面创新来讲，则含金量更高，这将解锁更多有趣的、有价值的应用，引领2025年大模型应用形态的改变。 Claude通过写代码杀出重围，Google的实时多模态或将使它王者归来。

“4g”、“电容屏”、“多点触控”等技术突破，带来了不一样的交互感受，是移动互联网爆发的奇点，那么，Google的实时多模态技术，也将革新交互模式，它会不会是AI应用爆发的新奇点呢，一起见证！

更多能力展示：

后台回复“进群”入群讨论。