InternVL 1.5：接近GPT-4V表现的可商用开源多模态大模型！ - 文章 - 开发者社区

InternVL 1.5是一个开源的多模态大型语言模型（MLLM），旨在缩小开源和专有商业模型在多模态理解方面的能力差距。

InternVL 1.5与专有商业模型的比较。

这些基准测试的结果表明，InternVL 1.5实现了与领先的专有模型相当的性能。

picture.image

InternVL 1.5 引入了三个架构改进：

强大的视觉编码器：探索了一种用于大规模视觉基础模型InternViT-6B的持续学习策略，提升了其视觉理解能力，并使其能够在不同的大型语言模型中进行迁移和重用。
动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为1至40块448×448像素的瓦片，支持高达4K分辨率的输入。
高质量双语数据集：精心收集了一个涵盖常见场景、文档图像的高质量双语数据集，并用英语和中文问答对进行了标注，显著提高了OCR和中文相关任务的性能。

InternVL 1.5的特点 。InternVL 1.5通过持续学习具有强大的视觉表示能力、灵活的分辨率功能，以及在英语和中文方面的强大的双语能力，使其定位为一个有竞争力的多模态大型语言模型（MLLM）

picture.image

InternVL 1.5 模型详细信息

总体架构。 InternVL 1.5采用了类似于流行MLLMs（多模态大型语言模型）的ViTMLP-LLM架构，通过一个MLP（多层感知器）投影器将预训练的InternViT-6B与InternLM2-20B结合起来。使用了一种简单的像素洗牌技术来将视觉标记的数量减少到四分之一。

picture.image

架构：InternViT-6B-448px-V1-5 + MLP + InternLM2-Chat-20B

图像尺寸：动态分辨率，最多 40 个 448 x 448 的图块（4K 分辨率）。

参数：25.5B

预训练阶段可学习组件：ViT + MLP

SFT阶段可学习的部分： ViT + MLP + LLM

数据：高质量双语数据集

InternVL 1.5中使用的数据集摘要。

为了构建大规模的OCR数据集，我们利用PaddleOCR在来自Wukong的图像上执行中文OCR，在来自LAION-COCO的图像上执行英文OCR。

picture.image

通过一系列基准测试和比较研究对InternVL 1.5进行了评估。与开源和专有模型相比， InternVL 1.5展现出了竞争性的表现，在18个基准测试中的8个中取得了最先进的结果 。

picture.image


          
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
          
https://arxiv.org/pdf/2404.16821
          
Demo: https://internvl.opengvlab.com
          
Code: https://github.com/OpenGVLab/InternVL
          
Model: https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5