InternVL 1.5是一个开源的多模态大型语言模型(MLLM),旨在缩小开源和专有商业模型在多模态理解方面的能力差距。
InternVL 1.5与专有商业模型的比较。
这些基准测试的结果表明,InternVL 1.5实现了与领先的专有模型相当的性能。
InternVL 1.5 引入了三个架构改进:
- 强大的视觉编码器:探索了一种用于大规模视觉基础模型InternViT-6B的持续学习策略,提升了其视觉理解能力,并使其能够在不同的大型语言模型中进行迁移和重用。
- 动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1至40块448×448像素的瓦片,支持高达4K分辨率的输入。
- 高质量双语数据集:精心收集了一个涵盖常见场景、文档图像的高质量双语数据集,并用英语和中文问答对进行了标注,显著提高了OCR和中文相关任务的性能。
InternVL 1.5的特点 。InternVL 1.5通过持续学习具有强大的视觉表示能力、灵活的分辨率功能,以及在英语和中文方面的强大的双语能力,使其定位为一个有竞争力的多模态大型语言模型(MLLM)
InternVL 1.5 模型详细信息
总体架构。 InternVL 1.5采用了类似于流行MLLMs(多模态大型语言模型)的ViTMLP-LLM架构,通过一个MLP(多层感知器)投影器将预训练的InternViT-6B与InternLM2-20B结合起来。使用了一种简单的像素洗牌技术来将视觉标记的数量减少到四分之一。
架构:InternViT-6B-448px-V1-5 + MLP + InternLM2-Chat-20B
图像尺寸:动态分辨率,最多 40 个 448 x 448 的图块(4K 分辨率)。
参数:25.5B
预训练阶段可学习组件:ViT + MLP
SFT阶段可学习的部分: ViT + MLP + LLM
数据: 高质量双语数据集
InternVL 1.5中使用的数据集摘要。
为了构建大规模的OCR数据集,我们利用PaddleOCR在来自Wukong的图像上执行中文OCR,在来自LAION-COCO的图像上执行英文OCR。
通过一系列基准测试和比较研究对InternVL 1.5进行了评估。与开源和专有模型相比, InternVL 1.5展现出了竞争性的表现,在18个基准测试中的8个中取得了最先进的结果 。
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
https://arxiv.org/pdf/2404.16821
Demo: https://internvl.opengvlab.com
Code: https://github.com/OpenGVLab/InternVL
Model: https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。