Qwen团队发布了其系列中的最新力作——Qwen-Image ,一个在文生图领域,尤其是在复杂文字渲染和精准图像编辑方面取得重大突破的基础模型。许多用户惊艳于它生成清晰、美观中英文文字的能力,彻底告别了以往AI绘画中常见的“文字乱码”问题。那么,Qwen-Image是如何做到这一点的呢?本文将依据其技术报告,带你一探究竟,深入了解其背后的模型原理与精妙的训练策略。
核心特性
卓越的文本渲染能力
Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。这一突破性进展有效解决了以往AI生成图像中文字显示不清晰、出现乱码的痛点问题。
一致性的图像编辑能力
通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。这意味着用户在对图像进行修改时,模型能够很好地保持原图的整体风格和视觉连贯性,避免出现编辑后图像风格突变的问题。
强大的跨基准性能表现
在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA(最先进)水平的表现,充分证明了其作为强大图像生成基础模型的实力。
如何体验
如需体验 Qwen-Image,用户可以访问 QwenChat(chat.qwen.ai)并选择"图像生成"功能进行在线体验。同时,该模型已在魔搭社区与 Hugging Face 平台开源,开发者可以自由下载使用。
相关资源链接:
- ModelScope平台:https://modelscope.cn/models/Qwen/Qwen-Image
- Hugging Face平台:https://huggingface.co/Qwen/Qwen-Image
- GitHub开源代码:https://github.com/QwenLM/Qwen-Image
- 技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen\_Image.pdf
- 在线Demo体验:https://modelscope.cn/aigc/imageGeneration?tab=advanced
简单体验代码如下:
from diffusers import DiffusionPipeline
from tools.prompt\_utils import rewrite
import torch
# Initialize the pipeline
pipe = DiffusionPipeline.from\_pretrained("Qwen/Qwen-Image", torch\_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
# Generate with different aspect ratios
aspect\_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472)
}
prompt = "一只可爱的小猫坐在花园里"# Chinese prompt
prompt = rewrite(prompt)
width, height = aspect\_ratios["16:9"]
image = pipe(
prompt=prompt,
width=width,
height=height,
num\_inference\_steps=50,
true\_cfg\_scale=4.0,
generator=torch.Generator(device="cuda").manual\_seed(42)
).images[0]
image.save("example.png")
性能表现
研究团队在多个公开基准上对Qwen-Image进行了全面评估,测试范围涵盖了通用图像生成和专业图像编辑两大领域。在通用图像生成方面,模型在GenEval、DPG和OneIG-Bench等基准测试中均表现优异。在图像编辑领域,Qwen-Image在GEdit、ImgEdit和GSO等专业测试中同样取得了最先进的性能。
特别值得关注的是,Qwen-Image在文本渲染方面的表现尤为出色。在LongText-Bench、ChineseWord和TextCraft等专门针对文本渲染的基准测试中,该模型展现出了卓越的能力,特别是在中文文本渲染上,大幅领先现有的最先进模型。
这些全面的测试结果表明,Qwen-Image不仅具备广泛的通用图像生成能力,更在文本渲染精度方面达到了新的高度,凸显了其作为先进图像生成模型的独特地位。对于需要在生成图像中包含精确文字信息的应用场景,Qwen-Image将是一个极具价值的工具。
测试CASE
Qwen-Image的原理与训练策略
1、核心架构:三位一体的创新设计
Qwen-Image的强大能力并非源于单一模块的突破,而是建立在一个由多模态大语言模型(MLLM)、增强版变分自编码器(VAE)和多模态扩散Transformer(MMDiT) 构成的“三位一体”协同架构之上。这三个核心组件各司其职,共同构成了Qwen-Image强大的图像生成与编辑引擎。
首先,Qwen2.5-VL 担当了模型的“大脑”角色。它作为条件编码器,负责深刻理解用户的文本指令(Prompt)。与传统的纯语言模型不同,Qwen2.5-VL本身就具备强大的图文理解能力,其语言和视觉空间已经预先对齐。这意味着它不仅能理解“一只猫”,还能理解输入图片中的那只“具体的猫”,为后续的图像生成和编辑任务提供了高质量、高精度的语义指导。无论是纯文本生成(T2I),还是图文结合的编辑(TI2I),Qwen2.5-VL都能从中提取出精准的特征表示,作为引导扩散模型生成方向的“指挥官”。
其次,一个经过特殊优化的VAE 则扮演了“画质基石”的角色。VAE负责将图像压缩成紧凑的潜在表示(Latent),并在生成后将其解码回像素空间。Qwen-Image团队认识到,高质量的重建能力,特别是对微小文字和精细纹理的还原,是实现清晰文字渲染的基础。为此,他们没有沿用传统的图像VAE,而是采用了一个独特的单编码器、双解码器 架构,并专门针对包含大量文本的图像数据(如文档、海报、PPT)对图像解码器进行了微调。通过精细调整重建损失与感知损失的平衡,这个VAE能够极其逼真地还原图像细节,为后续生成清晰可辨的文字打下了坚实的基础。
最后,MMDiT 是完成最终“绘制”工作的核心。它是一个扩散模型,负责在Qwen2.5-VL的语义引导下,将随机噪声逐步转化为符合描述的图像潜变量。Qwen-Image在此处引入了一项关键创新——多模态可扩展旋转位置编码(MSRoPE) 。以往的模型在融合文本和图像位置信息时,常会将文本信息“拼接”在图像网格的某一行,这可能导致文本与图像特定区域的位置信息混淆,并限制分辨率的扩展。MSRoPE则巧妙地将文本信息视为在图像网格的“对角线”上进行编码,既保持了文本编码的独立性,又享受了图像端分辨率缩放的优势,极大地提升了模型对文本和图像位置关系的理解与对齐能力。
下面是关于模型架构以及多模态大语言模型的一些细节:
模型架构
模型架构如图所示,文生图架构基于三个核心组件构建,这些组件协同工作以实现高保真的文本到图像生成。首先,一个多模态大语言模型(Multimodal Large Language Model,MLLM)作为条件编码器,负责从文本输入中提取特征。其次,一个变分自编码器(Variational AutoEncoder,VAE)充当图像标记器,将输入图像压缩成紧凑的潜在表示,并在推理过程中再将其解码回来。第三,一个多模态扩散变换器(Multimodal Diffusion Transformer,MMDiT)作为主干扩散模型,在文本引导下对噪声和图像潜在表示之间的复杂联合分布进行建模。虽然本节概述了它们的一般作用,但具体的模型选择和架构细节将在以下各节中详细阐述。
模态大语言模型
Qwen-Image采用多模态大语言模型Qwen2.5-VL模型作为文本输入的特征提取模块,主要有三个关键原因:(1)Qwen2.5-VL的语言和视觉空间已经对齐,与Qwen3(Yang等人,2025年)等基于语言的模型相比,它更适合文本到图像的任务;(2)Qwen2.5-VL保留了强大的语言建模能力,与语言模型相比没有显著下降;(3)Qwen2.5-VL支持多模态输入,从而使Qwen-Image能够解锁更广泛的功能,例如图像编辑。分别用x和y表示图像和文本输入。
给定用户输入,如提示和图像,采用Qwen2.5-VL模型来提取特征。为了更好地指导模型生成精细的表示潜在,同时考虑不同任务中不同的输入模态,分别为纯文本输入和文本与图像输入设计了不同的系统提示。在图7和图15中展示了系统模板。最后,利用Qwen2.5-VL语言模型主干最后一层隐藏状态的潜在作为用户输入的表示。
- 图像生成系统模板
- 图像编辑系统模板
2、数据策略:精益求精的系统化工程
如果说巧妙的架构是Qwen-Image的骨架,那么高质量、多样化的数据就是其血肉。报告详细阐述了一套系统化的数据工程方法,其核心思想是质量优先、分布均衡 ,而非盲目追求数据规模。
图10:多阶段数据过滤管道概述。我们的过滤策略由七个连续阶段(S1 - S7)组成,每个阶段针对数据质量、对齐和多样性的特定方面。从初始预训练数据整理到高分辨率细化和多尺度训练,该管道在保持语义丰富性和分布稳定性的同时逐步提高数据集质量。
Qwen-Image的训练数据主要来自四个领域:自然、设计、人物和合成数据。其中,包含丰富文本、复杂布局和艺术风格的“设计”类数据是提升其文字渲染和版式设计能力的关键。
为了确保数据质量,团队设计了一个七阶段的渐进式数据过滤流水线 。这个过程就像一个精密的筛子,从最初的低分辨率预训练开始,逐步滤除损坏文件、低分辨率、模糊、过曝或过饱和的图像,并剔除图文不匹配的内容。随着训练的深入,过滤标准愈发严苛,最终筛选出品质与美学价值俱佳的高分辨率数据集,确保模型“学习”到的是最高质量的视觉信息。
使用的一些过滤操作符示例。这些操作符中的极值通常表示非典型或低质量图像。例如,亮度得分过高的图像通常包含大面积的白色或过度曝光区域。
为了攻克文字渲染这一核心难题,特别是中文字符长尾分布(常用字少、生僻字多)的问题,Qwen-Image采用了创新的多阶段数据合成策略 。这并非简单地使用其他AI模型生成图像,而是通过程序化手段创造高质量的文本图像。
- 纯净渲染 :在纯色背景上渲染大量中英文段落,让模型首先学会字符的基本形态。
- 组合渲染 :将合成的文字嵌入到真实场景中(如书本、木板),并用Qwen-VL生成描述性标题,让模型学会理解文字与环境的互动关系。
- 复杂渲染
:利用PPT、UI设计稿等模板,程序化地替换其中的文本内容,训练模型理解并遵循复杂的布局、字体、颜色等排版指令。
更多数据工程细节大家建议看原文,非常细致了!
3、训练策略:从易到难的“课程学习”
拥有了强大的架构和优质的数据后,如何高效地“教会”模型是成功的关键。Qwen-Image采用了一套多阶段、渐进式的预训练策略 ,可以看作是一种精心设计的“课程学习”(Curriculum Learning)。
模型并非一开始就接触最复杂的任务,而是遵循一个从易到难的学习路径。
- 分辨率从低到高 :训练从256p的低分辨率图像开始,逐步提升至640p,最终达到1328p。这让模型能先掌握整体的图像结构,再逐步学习和生成更精细的纹理与细节。
- 内容从通用到专门 :在训练初期,模型主要学习不含文本的通用图像,建立起强大的视觉表征能力。随后,逐步引入前述精心准备的文本渲染数据,专门强化其“写字”的能力。
- 数据从海量到精炼 :早期使用大规模数据进行广泛学习,后期则切换到经过多轮精筛的高质量数据上,进行深度优化,确保模型性能的进一步提升。
在训练的后期,Qwen-Image还引入了监督微调(SFT)和强化学习(RL) 两个阶段进行“精加工”。SFT阶段使用人工精选的高质量、高美感、高真实感的图文对进行微调,引导模型生成更符合人类审美的作品。而RL阶段则采用DPO(直接偏好优化)等技术,让模型直接从人类的偏好(比如在两张生成图中选择更好的一张)中学习,进一步对齐模型输出与用户的真实需求。
4、编辑秘诀:多任务学习与双重编码
Qwen-Image不仅擅长从零生成图像,其精准的图像编辑能力同样令人印象深刻。这得益于其独特的多任务训练范式和双重编码机制 。在处理图像编辑任务时,模型不再仅仅接收文本指令,而是同时接收原始图片和编辑指令。
这里的关键在于,模型对原始图片进行了双重编码 :
- 语义编码 :原始图片首先通过 Qwen2.5-VL 进行编码,提取出高层次的 语义特征 。这告诉扩散模型“图片里有什么”,比如“一个穿着红裙子的女孩”。
- 重建编码 :同时,原始图片也被送入 VAE编码器 ,提取出低层次的 视觉重建特征 。这保留了图片的像素级细节和结构信息,相当于告诉模型“图片原本长什么样”,包括光影、纹理等。
这两个特征被共同作为条件输入到MMDiT中。这种双重编码机制使得编辑模块能够在“保持语义一致性”(根据指令改变内容)和“维持视觉保真度”(保留未编辑区域的细节)之间取得绝佳的平衡。例如,当指令为“把女孩的裙子变成蓝色”时,语义编码指导模型改变颜色,而重建编码则确保女孩的面部特征、发型以及背景环境等都保持不变,从而实现精准、自然的编辑效果。
总结
Qwen-Image的成功并非偶然,它是先进模型架构、极致数据工程、智能化训练策略以及创新多任务范式协同作用的结晶。通过将Qwen2.5-VL的强大理解力、特制VAE的精细还原力以及MMDiT与MSRoPE的精准生成力相结合,并辅以一套从数据收集、过滤、合成到渐进式训练的完整流程,Qwen-Image最终在文生图领域,特别是中英文文字渲染和图像编辑两大核心挑战上,树立了新的标杆。它不仅为用户带来了更高质量的AIGC体验,也为未来多模态大模型的发展指明了新的方向。
添加微信,备注” LLM “进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/ 作者:致Great
/ 作者:欢迎转载,标注来源即可