文档备案控制台
免费开始使用

Gemini 1.5 PRO技术报告揭秘:颠覆性多模态大模型!10M超长上下文引领全球!

这篇技术报告也是真的长,全文77页,好在大多数都是实验。提供了各种维度的基准评测方法,预计短期类应该会有开源的github repo来复现这些评测方法。

标题:Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

这里不单独贴每个实验了,先贴一些技术报告中的例子,以及网友们热议的焦点。

一些基础的信息:

  • 效果层面:1.5 PRO > 1.0 Ultra & 1.5 Flash
  • sMOE架构
  • 可以处理3小时的视频、22小时的音频或10M的上下文,具有几乎完美的召回率
  • 遗憾的是,关于模型大小、专家数量、架构探索等的信息不多

例子一 :把JAX仓库丢进去(746152 tokens;116个文件),询问相关函数的实现

picture.image

例子二 :提供语法书和双语词典,可以直接进行未训练的语言之间的翻译

picture.image

例子三 :给定一本书和一幅图,可以在书中定位到与图片符合的描述位置

picture.image

例子四 :从一个45分钟的长视频中,定位到与prompt相关的某一帧的位置

picture.image

上述几个均是技术报告中贴出来的,更多的实测例子,可见下地址


        
          
https://x.com/Pritam_Roy1/status/1778430493505003781  

      

网友们讨论焦点:

  • 1.5 Pro 在MATH基准测试中取得91.1%的SOTA分数(在3年前,即2021年5月的 SOTA)是 6.9%!
  • 读完 58 页的 Genimi 1.5 Pro 技术报告后,RAG 可能已经死了。这是我作为人工智能创始人的想法,
  • 今天是 Google 明显领先 OpenAI 的日子吗?根据他们的技术报告,Gemini Pro 1.5 在许多基准测试中都处于领先地位。
  • 1000 万个代币,召回率几乎完美???这在几个月前还是科幻小说。
  • lmsys 上 gpt-4o的效果逐渐回归,与之前顶尖模型的差距逐渐变小。

最后,fuyao大佬发了一个long context deploy的论文,今天晚点要是有空看了,明天的论文应该发这个,另外本周deepseek moe lite的模型开源,不准备用一篇新文章发了。

0
0
0
0
评论
未登录
暂无评论