阿里又上新!开源 7B 文生图模型,专治图中文字,效果媲美 20B+ 大模型!

大模型图像处理机器学习

最近阿里在开源界频出狠活,不仅放出了 6B 大小的 Z-Image-Turbo,还开源了一款 7B 参数的主打「图中文字」的文生图模型:Ovis-Image

picture.image

图中的“文字渲染”能力是它的强项,也就是生成海报、宣传图、Logo、UI 原型、信息图这类必须让文字看得清、排得稳、对得齐的图。

大家知道的,绝大多数文生图模型——尤其是开源模型,都很容易把文字生得像咒语、像乱码、像虫子。

没想到,这次阿里 AIDC-AI 团队只用 7B 参数,就整出了能和 20B+ 大模型硬肛的效果。

核心亮点

1、文本渲染能力媲美大模型

在主流图像模型还在为“文字扭曲”“字体不准”“中英混输崩溃”这些老问题头疼时,Ovis-Image 上来就把中文、英文、字体风格、图文融合这些难点一起解决了。

picture.image

从官方Demo看,中文英文呈现非常清晰,字体风格准确。文字 无扭曲无塌缩,多种字体、字重、字号、宽高比均可控。

关键是它只有 7B。

甚至比很多本地可部署的模型还小,却能打出堪比 20B~30B 模型的文字精度。

2、权威榜单成绩炸裂

picture.image

CVTG-2K 文字渲染榜:平均正确率 92%

  • • GPT-4o:85%
  • • Qwen-Image:82%

直接甩开两个重量级产品一截。

picture.image

LongText-Bench 长文本能力

  • • 英文:92.2%(略低于 GPT-4o 的 95.6%)
  • • 中文:96.4%(高于 Qwen-Image 的 94.6%)

尤其是中文超长内容 — 海报、Banner、信息图、宣传页里常出现的排版密集场景,稳定、清晰、少错字。

这个能力对于国内设计、电商、品牌团队来说,价值极高。

快速入手

官方提供了一个可直接在浏览器中尝试使用 Ovis-Image 的在线 Gradio。

picture.image

如下安装到本地,指令如下:


 
 
 
 
   
git clone git@github.com:AIDC-AI/Ovis-Image.git  
conda create -n ovis-image python=3.10 -y  
conda activate ovis-image  
cd Ovis-Image  
pip install -r requirements.txt  
pip install -e .

要将文本转换为图像,请运行


 
 
 
 
   
python ovis\_image/test.py \  
    --model\_path AIDC-AI/Ovis-Image-7B/ovis\_image.safetensors \  
    --vae\_path AIDC-AI/Ovis-Image-7B/ae.safetensors \  
    --ovis\_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \  
    --image\_size 1024 \  
    --denoising\_steps 50 \  
    --cfg\_scale 5.0 \  
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail." \

再总结一下 Ovis-Image 亮点:

  • 中文渲染极强 :基本无扭曲、无乱码,高密度文本也不崩。
  • 字体风格完美融合 :能做到海报级别的自然度。
  • 质量媲美 20B+ 模型 :但模型只有 7B。
  • 支持广泛应用场景 :海报、Logo、UI 原型、信息图、教育图、广告物料。
  • 中英文双语渲染对等 :双语适配比很多模型做得更好。
  • 基于 DiT 架构,训练策略扎实 :有研发深度,有明显手工调优痕迹。

写在最后

Ovis-Image 是目前开源领域最具“落地感”的图中文字生成模型之一。

是一款为海报、电商、UI、品牌场景量身打造的设计类刚需模型。

轻量、快、可控、文本清晰,这在设计/电商/运营/产品领域都是非常硬核的能力。

如果你正在做:文生图工具、小红书/微博/公众号图文生成、海报模板生成、Banner、UI 原型生成、创意Logo等。

这个项目一定要收藏。

GitHub:https://github.com/AIDC-AI/Ovis-Image

模型地址:https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
TRAE 的思考:AI 时代程序员的认知进化
在 AI 浪潮下,传统的古法编程模式正在被颠覆和变革,对开发者的认知和协作模式提出了新的挑战。本次分享将深入探讨 AI Coding 的演进趋势,从 AI 辅助编程到 AI 主导的全新协作模式,以及它如何重塑人与 AI 之间的关系,同时也将分享下 TRAE 的核心理念、技术实现,演进实践中的踩坑心得、以及我们对未来的展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论