Gemini 1.5 PRO技术报告揭秘：颠覆性多模态大模型！10M超长上下文引领全球！ - 文章 - 开发者社区

这篇技术报告也是真的长，全文77页，好在大多数都是实验。提供了各种维度的基准评测方法，预计短期类应该会有开源的github repo来复现这些评测方法。

标题：Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

这里不单独贴每个实验了，先贴一些技术报告中的例子，以及网友们热议的焦点。

一些基础的信息：

例子一 ：把JAX仓库丢进去(746152 tokens；116个文件)，询问相关函数的实现

picture.image

例子二 ：提供语法书和双语词典，可以直接进行未训练的语言之间的翻译

picture.image

例子三 ：给定一本书和一幅图，可以在书中定位到与图片符合的描述位置

picture.image

例子四 ：从一个45分钟的长视频中，定位到与prompt相关的某一帧的位置

picture.image

上述几个均是技术报告中贴出来的，更多的实测例子，可见下地址


        
          
https://x.com/Pritam_Roy1/status/1778430493505003781

网友们讨论焦点：

最后，fuyao大佬发了一个long context deploy的论文，今天晚点要是有空看了，明天的论文应该发这个，另外本周deepseek moe lite的模型开源，不准备用一篇新文章发了。