刚刚!DeepSeek 再发新模型Janus-Pro 7B,统一多模态理解与生成

大模型数据库机器学习

DeepSeek 团队又发新模型,28日凌晨推出了创新型多模态框架 Janus-Pro,这是一个能同时处理多模态理解和生成任务的统一模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建,支持 384 x 384 的图像输入,并使用特定的 tokenizer 进行图像生成。最大特点是将视觉编码分为独立通道,同时保持单一 transformer 架构进行处理。

picture.image

这种创新设计不仅解决了传统模型在视觉编码器角色上的冲突问题,还让整个系统变得更加灵活。在实际应用中,Janus-Pro 的表现超越了之前的统一模型,在某些任务上甚至可以媲美专门的任务型模型。在GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。

picture.image

picture.image

picture.image

该项目采用 MIT 许可证开源,开发者可以通过 GitHub 获取完整代码。 DeepSeek 团队表示,Janus-Pro 的简洁设计和卓越性能,使其有望成为下一代统一多模态模型的重要选择。

github:https://github.com/deepseek-ai/Janus

huggingface:https://huggingface.co/deepseek-ai/Janus-Pro-7B

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论