刚刚！DeepSeek 再发新模型Janus-Pro 7B，统一多模态理解与生成 - 文章 - 开发者社区

DeepSeek 团队又发新模型，28日凌晨推出了创新型多模态框架 Janus-Pro，这是一个能同时处理多模态理解和生成任务的统一模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，支持 384 x 384 的图像输入，并使用特定的 tokenizer 进行图像生成。最大特点是将视觉编码分为独立通道，同时保持单一 transformer 架构进行处理。

picture.image

这种创新设计不仅解决了传统模型在视觉编码器角色上的冲突问题，还让整个系统变得更加灵活。在实际应用中，Janus-Pro 的表现超越了之前的统一模型，在某些任务上甚至可以媲美专门的任务型模型。在GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。

picture.image

该项目采用 MIT 许可证开源，开发者可以通过 GitHub 获取完整代码。 DeepSeek 团队表示，Janus-Pro 的简洁设计和卓越性能，使其有望成为下一代统一多模态模型的重要选择。

github：https://github.com/deepseek-ai/Janus

huggingface：https://huggingface.co/deepseek-ai/Janus-Pro-7B