InternVL 1.5:接近GPT-4V表现的可商用开源多模态大模型!

大模型智能内容流媒体协议

InternVL 1.5是一个开源的多模态大型语言模型(MLLM),旨在缩小开源和专有商业模型在多模态理解方面的能力差距。

InternVL 1.5与专有商业模型的比较。

这些基准测试的结果表明,InternVL 1.5实现了与领先的专有模型相当的性能。

picture.image

InternVL 1.5 引入了三个架构改进:

  • 强大的视觉编码器:探索了一种用于大规模视觉基础模型InternViT-6B的持续学习策略,提升了其视觉理解能力,并使其能够在不同的大型语言模型中进行迁移和重用。
  • 动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1至40块448×448像素的瓦片,支持高达4K分辨率的输入。
  • 高质量双语数据集:精心收集了一个涵盖常见场景、文档图像的高质量双语数据集,并用英语和中文问答对进行了标注,显著提高了OCR和中文相关任务的性能。

InternVL 1.5的特点 。InternVL 1.5通过持续学习具有强大的视觉表示能力、灵活的分辨率功能,以及在英语和中文方面的强大的双语能力,使其定位为一个有竞争力的多模态大型语言模型(MLLM)

picture.image

InternVL 1.5 模型详细信息

总体架构。 InternVL 1.5采用了类似于流行MLLMs(多模态大型语言模型)的ViTMLP-LLM架构,通过一个MLP(多层感知器)投影器将预训练的InternViT-6B与InternLM2-20B结合起来。使用了一种简单的像素洗牌技术来将视觉标记的数量减少到四分之一。

picture.image

架构:InternViT-6B-448px-V1-5 + MLP + InternLM2-Chat-20B

图像尺寸:动态分辨率,最多 40 个 448 x 448 的图块(4K 分辨率)。

参数:25.5B

预训练阶段可学习组件:ViT + MLP

SFT阶段可学习的部分: ViT + MLP + LLM

数据: 高质量双语数据集

InternVL 1.5中使用的数据集摘要。

为了构建大规模的OCR数据集,我们利用PaddleOCR在来自Wukong的图像上执行中文OCR,在来自LAION-COCO的图像上执行英文OCR。

picture.image

通过一系列基准测试和比较研究对InternVL 1.5进行了评估。与开源和专有模型相比, InternVL 1.5展现出了竞争性的表现,在18个基准测试中的8个中取得了最先进的结果

picture.image

picture.image


          
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
          
https://arxiv.org/pdf/2404.16821
          
Demo: https://internvl.opengvlab.com
          
Code: https://github.com/OpenGVLab/InternVL
          
Model: https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论