Gemini背后Google AI演变的历史梳理 - 文章 - 开发者社区

本篇是我和Google Bard（目前融合了Gemini pro版本）联合制作，昨天Google发布的Gemini，绝非是一蹴而就的成果，事实上，Google的AI产品进化到今天，用了十几年的时间，今天我们来看看Gemini背后的历史。

1. 引言

相信昨天AI板块热搜的Gemini已经有不少朋友看到惊艳的视频。但是需要澄清的是，Gemini有三个版本，ultra， prod， Nano

picture.image

Ultra最厉害，目前还没有开放使用，估计算力血贵。
Pro版本最适合广泛使用，目前用户可以通过Google聊天机器人Bard使用，Bard集成了Gemini pro 版本，看过不同的评测大概率和GPT3.5水平相当。
Nano目前在google自己的手机Pixel pro8 上已经搭载，官网显示用户可以在手机上进行文本总结，图像增强等处理。

google 官方demo视频中使用的是Ultra版本，号称多方面评测优于GPT4。仅从demo中演示的能力，我个人觉得最突出的优势在于“视频实时交互”，毕竟YOUTube是google的，视频数据方面远胜于OpenAI，相应的视频识别能力也是非常优秀。

不过Gemini的这次发布真是姗姗来迟。而且大家可能也听到过google之前发布的众多AI产品，比如Bert，Bard、PaLm、PaLm 2、Duplex， Google Assistant， Alpha Go， Megenta… ，可以看出Google作为一家大公司是多么的纠缠不清，甚至有点混乱（这种情况相信在大厂待过的同学都有体会），不过这次的Gemini的各项特性似乎是对之前的各种产品来了一次“大一统”。

picture.image

而来自Open AI的“外敌”威胁肯定是大一统最大的动力，今天就带大家一起来梳理一下Google AI系进化演变，Gemini是如何基于这些演变最终诞生，尽管曾经面临“难产”，其中也包含了在Gemini 之外的AI产品，让大家有个更全面的了解。

我把GoogleAI系的产品、技术演变划分为三个阶段：

2006年—2012年：机器学习为主，AI产品根据业务领域各自为阵。
2012年-2020年：深度学习的谷歌大脑，强化学习的DeepMind 两驾AI 马车齐驱并进，各自为阵。
2022年 -现在：受OpenAI chatGPT影响，Google 大脑和Deep Mind 部门合并，一致对外。

我们分阶段来看一下（文末附录有汇总的时间轴）。

2. 第一阶段： 2006年—2012年，机器学习为主的AI产品根据业务领域各自为阵。

当时深度学习还没有被认可，机器学习是主流的AI技术，尤其以搜索、推荐为甚，是AI应用的最大营地，作为搜索老大，无疑，搜索算法无疑是Google AI最强的力量。

同时google 翻译作为AI在NLP(自然语言处理)的应用也被人熟知。

3. 第二阶段： 2012年—2020年，谷歌大脑与强化学习的DeepMind并驾齐驱，各自为阵。

2012年有一个标志性的事件，那就是Hinton（深度学习教父）带他的两个学生：Ilya（后来的openAI 首席科学家）和Alex（AlexNet的主要贡献者）在imageNet比赛中以绝对领先的优势获奖，至此人们开始关注深度学习。

ImageNet比赛后，Google 以4400万美元买下仅有三人的公司DDN，成立谷歌大脑，而DDN仅有的三个人就是：Hinton，Ilya，Alex。

2014年， Google 又将DeepMind 收入囊中。

这两次收购使google 拥有当时世界上最顶尖的AI研究团队。也正是这一年，奥特曼成立了非盈利机构OpenAI，目的就是要“预防”Google 在AI界的垄断给人类带来威胁，他联合马斯克从google 大脑挖来了iLya担任openAI 首席科学家，据说马斯克还因此与google CEO 闹得关系很僵。

拥有了DeepMind 和google brain的左膀右臂后，Google在2016-2020年期间不断有新的产品和研究成果诞生，我们来一起看看这段时间Googl AI产品的重要事件，大家直接看图（黄色框代表DeepMind主导的项目，蓝色代表谷歌大脑主导的成果，绿色代表双方共同贡献的项目）。

picture.image

可能你也发现，这段时间google的大多数AI产品商业化并不成功，我们甚至都没听过，尤其是感觉这些项目中deepMind和谷歌大脑在内部既有竞争又有合作的关系，也确实让google的AI不知何去何从。

非常值得一提的是：2020年Gemini的前身的前身Meena曾两次被高管拒绝商业化，导致Meena的负责人直接辞职。如果历史倒流，Meena早两年发布，可能真的不会有open AI什么事情了。不过不管怎样，这段时间的积累也为今天的Gemini诞生打下了好的基础。

4. 第 三阶段： 受OpenAI GPT影响，谷歌大脑和Deep Mind 联合一致对外。

2022年4月，Google 发布PaLM1,PaLM的全称是Pathways Language Model，这里的Pathways正是2019年Deepmind的研究成果，同时PaLM也是基于谷歌大脑的Transformer算法的大语言模型。所以，这次PaLM算是谷歌大脑和Deep Mind的联合产品。不过最初PaLM一直保持私有状态

2022年5月，谷歌大脑发布Imagen，基于diffusion算法的图像生成技术，也为Gemini的图像生成功能打下基础。

直到2023年2月，估计是为了应对open AI chatGPT（2022年12月发布），PaLM发布对外的API，同时Google发布基于PaLM的聊天机器人Bard。

谷歌大脑和DeepMind在PaLM上的合作后，加上OpenAI的突飞猛进，两个部门在2023年4月完成合并，共同成为Google deepmind，自此才有了2023年5月的PaLM2，和今天的Gemini。现在回头来看，PaLM2只是一个临时应对方案，真正的大招是今天的Gemini。

如果单独看Gemini的demo，绝对是Google AI史上的大一统时代，我们总结一下，下图中左侧是Google AI史上算法、模型和技术，右侧是真正被普通用户所使用的产品。

picture.image

附录：Google AI产品时间轴

picture.image