在图像编辑领域,精准修改文字和保持语义一致性是两大难题,尤其涉及中英文混排或书法场景。
阿里最新放出的 Qwen-Image-Edit ,在图像编辑上带来了颠覆式突破。
它不仅支持常规的视觉编辑(添加、删除、替换元素),还能同时进行语义和外观双重编辑。更厉害的是,它能精准修改图片里的文字内容,并保持原有字体、字号和风格,中英文都能无缝支持。
Qwen-Image-Edit 是由阿里Qwen团队于2025年8月18日发布,基于20亿参数的 Qwen-Image 模型,结合Qwen2.5-VL和变分自编码器(VAE),实现语义和外观双重编辑,特别擅长文字修改(尤其中文方面)以及IP创作、物体旋转和风格转换。
目前已上线Qwen Chat,并且在魔搭及Hugging Face都有体验版本,皆可免费使用。
核心功能
- • 精准中英文文本编辑 :支持中英文文字修改,保留原始字体、字号、风格。
- • 语义一致性编辑 :保持IP一致性,支持物体旋转、风格转换。
- • 视觉外观编辑 :添加、删除、修改元素,保持图像整体不变。
- • 多场景支持 :海报设计、书法修复、IP创作等。
- • 开源部署 :支持Hugging Face、ModelScope、Diffusers。
快速入手
官方提供有2种在线方式,可直接免费使用。
QwenChat:https://chat.qwen.ai/?inputFeature=image\_edit
HF:https://huggingface.co/spaces/Qwen/Qwen-Image
我们就以官方QwenChat,来直接体验,打开QwenChat登录后,点击图片编辑即可。
然后我们上传要修改的图片,填写编辑描述词。比如将下面图片中的哪吒敖丙草图上的文字互换。
整体效果还是不错的,文字风格也保留了,就是字体颜色有些瑕疵,也可能好似哪吒橙色字体显示不完整的因素导致。
除了在线方式外,有条件的小伙伴也可以通过源码调用方式。
在自己的Python虚拟环境,安装最新Diffusers。
pip install git+https://github.com/huggingface/diffusers
编写图像编辑代码,直接在代码中加载Qwen-Image-Edit模型,并编写好提示词。
import os
from PIL import Image
import torch
from diffusers import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from\_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
pipeline.set\_progress\_bar\_config(disable=None)
image = Image.open("./input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
inputs = {
"image": image,
"prompt": prompt,
"generator": torch.manual\_seed(0),
"true\_cfg\_scale": 4.0,
"negative\_prompt": " ",
"num\_inference\_steps": 50,
}
with torch.inference\_mode():
output = pipeline(**inputs)
output\_image = output.images[0]
output\_image.save("output\_image\_edit.png")
print("image saved at", os.path.abspath("output\_image\_edit.png"))
DEMO展示(Qwen-Image)
说到Qwen-Image-Edit,也额外来看下Qwen-Image本身,其最突出的能力之一是在各种图像上实现高保真文本渲染。
无论中英文,都能准确地保留排版细节、布局连贯性和语境和谐。使其无缝融入视觉纹理中。
除了文本之外,在通用图像生成方面也表现出色,支持多种艺术风格。
在图像编辑方面,它支持高级操作,如风格迁移、对象插入或移除、细节增强、图像内文本编辑,甚至人体姿态操纵。
还能理解包括目标检测、语义分割、深度和边缘(Canny)估计、新视角合成和超分辨率。
应用场景
写在最后
Qwen-Image-Edit以其20亿参数架构,通过双路径控制实现精准中英文文字编辑和语义外观双重编辑,吸引了一大批AI创作者的关注及体验。
也是开源图像编辑领域,独家的一款中文生成和编辑能力超模的存在。
由于它属于全图重绘,相较于 FLUX Kontext 容易丢失细节,但瑕不掩瑜,它的精准中文编辑及语义外观双控,依旧让它无论从海报设计到IP创作都能让你事半功倍。
GitHub:https://github.com/QwenLM/Qwen-Image
● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!
● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!
● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
