Gemini背后Google AI演变的历史梳理

技术

本篇是我和Google Bard(目前融合了Gemini pro版本)联合制作,昨天Google发布的Gemini,绝非是一蹴而就的成果,事实上,Google的AI产品进化到今天,用了十几年的时间,今天我们来看看Gemini背后的历史。

1. 引言

相信昨天AI板块热搜的Gemini已经有不少朋友看到惊艳的视频。但是需要澄清的是,Gemini有三个版本,ultra, prod, Nano

picture.image

  • Ultra最厉害,目前还没有开放使用,估计算力血贵。

  • Pro版本最适合广泛使用,目前用户可以通过Google聊天机器人Bard使用,Bard集成了Gemini pro 版本,看过不同的评测大概率和GPT3.5水平相当。

  • Nano目前在google自己的手机Pixel pro8 上已经搭载,官网显示用户可以在手机上进行文本总结,图像增强等处理。

google 官方demo视频中使用的是Ultra版本,号称多方面评测优于GPT4。仅从demo中演示的能力,我个人觉得最突出的优势在于“视频实时交互”,毕竟YOUTube是google的,视频数据方面远胜于OpenAI,相应的视频识别能力也是非常优秀。

不过Gemini的这次发布真是姗姗来迟。而且大家可能也听到过google之前发布的众多AI产品,比如Bert,Bard、PaLm、PaLm 2、Duplex, Google Assistant, Alpha Go, Megenta… ,可以看出Google作为一家大公司是多么的纠缠不清,甚至有点混乱(这种情况相信在大厂待过的同学都有体会),不过这次的Gemini的各项特性似乎是对之前的各种产品来了一次“大一统”。

picture.image

而来自Open AI的“外敌”威胁肯定是大一统最大的动力,今天就带大家一起来梳理一下Google AI系进化演变,Gemini是如何基于这些演变最终诞生,尽管曾经面临“难产”,其中也包含了在Gemini 之外的AI产品,让大家有个更全面的了解。

我把GoogleAI系的产品、技术演变划分为三个阶段:

  1. 2006年—2012年:机器学习为主,AI产品根据业务领域各自为阵。
  2. 2012年-2020年:深度学习的谷歌大脑,强化学习的DeepMind 两驾AI 马车齐驱并进,各自为阵。
  3. 2022年 -现在:受OpenAI chatGPT影响,Google 大脑 和Deep Mind 部门合并,一致对外。

我们分阶段来看一下(文末附录有汇总的时间轴)。

2. 第一阶段: 2006年—2012年,机器学习为主的AI产品根据业务领域各自为阵。

当时深度学习还没有被认可,机器学习是主流的AI技术,尤其以搜索、推荐为甚,是AI应用的最大营地,作为搜索老大,无疑,搜索算法无疑是Google AI最强的力量。

同时google 翻译作为AI在NLP(自然语言处理)的应用也被人熟知。

3. 第二阶段: 2012年—2020年,谷歌大脑与强化学习的DeepMind并驾齐驱,各自为阵。

2012年有一个标志性的事件,那就是Hinton(深度学习教父)带他的两个学生:Ilya(后来的openAI 首席科学家)和Alex(AlexNet的主要贡献者)在imageNet比赛中以绝对领先的优势获奖,至此人们开始关注深度学习。

ImageNet比赛后,Google 以4400万美元买下仅有三人的公司DDN,成立谷歌大脑,而DDN仅有的三个人就是:Hinton,Ilya,Alex。

2014年, Google 又将DeepMind 收入囊中。

这两次收购使google 拥有当时世界上最顶尖的AI研究团队。也正是这一年,奥特曼成立了非盈利机构OpenAI,目的就是要“预防”Google 在AI界的垄断给人类带来威胁,他联合马斯克从google 大脑挖来了iLya担任openAI 首席科学家,据说马斯克还因此与google CEO 闹得关系很僵。

拥有了DeepMind 和google brain的左膀右臂后,Google在2016-2020年期间不断有新的产品和研究成果诞生,我们来一起看看这段时间Googl AI产品的重要事件,大家直接看图(黄色框代表DeepMind主导的项目,蓝色代表谷歌大脑主导的成果,绿色代表双方共同贡献的项目)。

picture.image

可能你也发现,这段时间google的大多数AI产品商业化并不成功,我们甚至都没听过,尤其是感觉这些项目中deepMind和谷歌大脑在内部既有竞争又有合作的关系,也确实让google的AI不知何去何从。

非常值得一提的是:2020年Gemini的前身的前身Meena曾两次被高管拒绝商业化,导致Meena的负责人直接辞职。如果历史倒流,Meena早两年发布,可能真的不会有open AI什么事情了。 不过不管怎样,这段时间的积累也为今天的Gemini诞生打下了好的基础。

4. 第 三阶段: 受OpenAI GPT影响,谷歌大脑 和Deep Mind 联合一致对外。

2022年4月,Google 发布PaLM1,PaLM的全称是Pathways Language Model,这里的Pathways正是2019年Deepmind的研究成果,同时PaLM也是基于谷歌大脑的Transformer算法的大语言模型。所以,这次PaLM算是谷歌大脑 和Deep Mind的联合产品。不过最初PaLM一直保持私有状态

2022年5月,谷歌大脑发布Imagen,基于diffusion算法的图像生成技术,也为Gemini的图像生成功能打下基础。

直到2023年2月,估计是为了应对open AI chatGPT(2022年12月发布),PaLM发布对外的API,同时Google发布基于PaLM的聊天机器人Bard。

谷歌大脑和DeepMind在PaLM上的合作后,加上OpenAI的突飞猛进,两个部门在2023年4月完成合并,共同成为Google deepmind,自此才有了2023年5月的PaLM2,和今天的Gemini。现在回头来看,PaLM2只是一个临时应对方案,真正的大招是今天的Gemini。

如果单独看Gemini的demo,绝对是Google AI史上的大一统时代,我们总结一下,下图中左侧是Google AI史上算法、模型和技术,右侧是真正被普通用户所使用的产品。

picture.image

附录:Google AI产品时间轴

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论