这篇技术报告也是真的长,全文77页,好在大多数都是实验。提供了各种维度的基准评测方法,预计短期类应该会有开源的github repo来复现这些评测方法。
标题:Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
这里不单独贴每个实验了,先贴一些技术报告中的例子,以及网友们热议的焦点。
一些基础的信息:
- 效果层面:1.5 PRO > 1.0 Ultra & 1.5 Flash
- sMOE架构
- 可以处理3小时的视频、22小时的音频或10M的上下文,具有几乎完美的召回率
- 遗憾的是,关于模型大小、专家数量、架构探索等的信息不多
例子一 :把JAX仓库丢进去(746152 tokens;116个文件),询问相关函数的实现
例子二 :提供语法书和双语词典,可以直接进行未训练的语言之间的翻译
例子三 :给定一本书和一幅图,可以在书中定位到与图片符合的描述位置
例子四 :从一个45分钟的长视频中,定位到与prompt相关的某一帧的位置
上述几个均是技术报告中贴出来的,更多的实测例子,可见下地址
https://x.com/Pritam_Roy1/status/1778430493505003781
网友们讨论焦点:
- 1.5 Pro 在MATH基准测试中取得91.1%的SOTA分数(在3年前,即2021年5月的 SOTA)是 6.9%!
- 读完 58 页的 Genimi 1.5 Pro 技术报告后,RAG 可能已经死了。这是我作为人工智能创始人的想法,
- 今天是 Google 明显领先 OpenAI 的日子吗?根据他们的技术报告,Gemini Pro 1.5 在许多基准测试中都处于领先地位。
- 1000 万个代币,召回率几乎完美???这在几个月前还是科幻小说。
- lmsys 上 gpt-4o的效果逐渐回归,与之前顶尖模型的差距逐渐变小。
最后,fuyao大佬发了一个long context deploy的论文,今天晚点要是有空看了,明天的论文应该发这个,另外本周deepseek moe lite的模型开源,不准备用一篇新文章发了。
