DeepSeek 团队又发新模型,28日凌晨推出了创新型多模态框架 Janus-Pro,这是一个能同时处理多模态理解和生成任务的统一模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建,支持 384 x 384 的图像输入,并使用特定的 tokenizer 进行图像生成。最大特点是将视觉编码分为独立通道,同时保持单一 transformer 架构进行处理。
这种创新设计不仅解决了传统模型在视觉编码器角色上的冲突问题,还让整个系统变得更加灵活。在实际应用中,Janus-Pro 的表现超越了之前的统一模型,在某些任务上甚至可以媲美专门的任务型模型。在GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。
该项目采用 MIT 许可证开源,开发者可以通过 GitHub 获取完整代码。 DeepSeek 团队表示,Janus-Pro 的简洁设计和卓越性能,使其有望成为下一代统一多模态模型的重要选择。
github:https://github.com/deepseek-ai/Janus
huggingface:https://huggingface.co/deepseek-ai/Janus-Pro-7B