阿里巴巴 AIDC 团队开源ovis2 多模态 LLM 系列模型。
1B/2B/4B/8B/16B/34B
模型地址:https://huggingface.co/collections/AIDC-AI/ovis2-67ab36c7e497429034874464
特点:
- 通过优化训练策略使小模型,有更高的能力密度,展现出跨层级的领先优势。
- 通过指令调整和偏好学习的结合,显著强化了思维链推理能力。
- 将视频和多图像数据纳入训练中,以增强处理跨帧和图像的复杂视觉信息的能力。
- 增强英语和中文以外的多语言 OCR,并改进从复杂视觉元素(如表格和图表)中提取结构化数据。
模型性能,34B可以打Qwen2.5 VL 72B!