昨日,OpenAI直播活动第五日,Sam Altman终于出现,宣布了苹果产品全面接入OpenAI 模型服务,但这一日热度却掉到开播以来最低。
这是什么原因呢?首先,苹果联姻OpenAI早已不是什么新消息,更重要的是,在开播前一小时,Google CEO Picha 对外宣布Gemini 2.0发布,将原本在OpenAI上的吸引力都转移了过去。
要说Google模型升级已经不是第一次,在此之前都是Sam Altman阻击Google,没想到这次形势反转,更让Sam郁闷的是不知道是不是因为苹果带来的流量,OpenAI服务今日都一度处于宕机状态。
Gemini 2.0到底有什么魔力,能够一改颓势,逆势翻盘的呢?
基础数据上看,Flash 2.0 的虽然模型参数量仅约8亿,但是其性能却不输主流大模型,比之前的pro版本强了不少,编程能力也比肩当前最强模型claude 3.5。
然而,真正让它出圈的是强大的实时多模态 能力,不仅能够理解图片视频等,还能够原生支持音频和图像输出,还支持多轮对话中对输出效果做精细化调整。看下面这个展示,Gemini不仅能下棋,还能在纸上画出来,并且风格和原来的一致,这就很有意思了。
但是,虽然大部分功能都可以直接在线免费试用(https://aistudio.google.com/),但遗憾的是目前并未对所有用户开放生图能力(据说目前只有内部员工能够访问 )。
总的来说,本次发布将过去Google的期货变成了现实,它将文字、视频、音频原本分离的模态现在融合在了一起,在交互层面相较于OpenAI canvas的产品层面创新来讲,则含金量更高, 这将解锁更多有趣的、有价值的应用 , 引领2025年大模型应用形态的改变。 Claude通过写代码杀出重围,Google的实时多模态或将使它王者归来。
“4g”、“电容屏”、“多点触控”等技术突破,带来了不一样的交互感受,是移动互联网爆发的奇点,那么,Google的实时多模态技术,也将革新交互模式,它会不会是AI应用爆发的新奇点呢,一起见证!
更多能力展示:
后台回复“进群”入群讨论。