设计师集体沸腾!阿里开源千问图像编辑模型,支持语义及外观的双重编辑!

在图像编辑领域,精准修改文字和保持语义一致性是两大难题,尤其涉及中英文混排或书法场景。

阿里最新放出的 Qwen-Image-Edit ,在图像编辑上带来了颠覆式突破。

picture.image

它不仅支持常规的视觉编辑(添加、删除、替换元素),还能同时进行语义和外观双重编辑。更厉害的是,它能精准修改图片里的文字内容,并保持原有字体、字号和风格,中英文都能无缝支持。

Qwen-Image-Edit 是由阿里Qwen团队于2025年8月18日发布,基于20亿参数的 Qwen-Image 模型,结合Qwen2.5-VL和变分自编码器(VAE),实现语义和外观双重编辑,特别擅长文字修改(尤其中文方面)以及IP创作、物体旋转和风格转换。

目前已上线Qwen Chat,并且在魔搭及Hugging Face都有体验版本,皆可免费使用。

picture.image

核心功能

  • 精准中英文文本编辑 :支持中英文文字修改,保留原始字体、字号、风格。
  • 语义一致性编辑 :保持IP一致性,支持物体旋转、风格转换。
  • 视觉外观编辑 :添加、删除、修改元素,保持图像整体不变。
  • 多场景支持 :海报设计、书法修复、IP创作等。
  • 开源部署 :支持Hugging Face、ModelScope、Diffusers。

快速入手

官方提供有2种在线方式,可直接免费使用。

QwenChat:https://chat.qwen.ai/?inputFeature=image\_edit

HF:https://huggingface.co/spaces/Qwen/Qwen-Image

我们就以官方QwenChat,来直接体验,打开QwenChat登录后,点击图片编辑即可。

picture.image

然后我们上传要修改的图片,填写编辑描述词。比如将下面图片中的哪吒敖丙草图上的文字互换。

picture.image

picture.image

整体效果还是不错的,文字风格也保留了,就是字体颜色有些瑕疵,也可能好似哪吒橙色字体显示不完整的因素导致。

除了在线方式外,有条件的小伙伴也可以通过源码调用方式。

在自己的Python虚拟环境,安装最新Diffusers。


 
 
 
 
   
pip install git+https://github.com/huggingface/diffusers

编写图像编辑代码,直接在代码中加载Qwen-Image-Edit模型,并编写好提示词。


 
 
 
 
   
import os  
from PIL import Image  
import torch  
  
from diffusers import QwenImageEditPipeline  
  
pipeline = QwenImageEditPipeline.from\_pretrained("Qwen/Qwen-Image-Edit")  
print("pipeline loaded")  
pipeline.to(torch.bfloat16)  
pipeline.to("cuda")  
pipeline.set\_progress\_bar\_config(disable=None)  
  
image = Image.open("./input.png").convert("RGB")  
prompt = "Change the rabbit's color to purple, with a flash light background."  
  
  
inputs = {  
    "image": image,  
    "prompt": prompt,  
    "generator": torch.manual\_seed(0),  
    "true\_cfg\_scale": 4.0,  
    "negative\_prompt": " ",  
    "num\_inference\_steps": 50,  
}  
  
with torch.inference\_mode():  
    output = pipeline(**inputs)  
    output\_image = output.images[0]  
    output\_image.save("output\_image\_edit.png")  
    print("image saved at", os.path.abspath("output\_image\_edit.png"))

DEMO展示(Qwen-Image)

说到Qwen-Image-Edit,也额外来看下Qwen-Image本身,其最突出的能力之一是在各种图像上实现高保真文本渲染。

无论中英文,都能准确地保留排版细节、布局连贯性和语境和谐。使其无缝融入视觉纹理中。

picture.image

除了文本之外,在通用图像生成方面也表现出色,支持多种艺术风格。

picture.image

在图像编辑方面,它支持高级操作,如风格迁移、对象插入或移除、细节增强、图像内文本编辑,甚至人体姿态操纵。

picture.image

还能理解包括目标检测、语义分割、深度和边缘(Canny)估计、新视角合成和超分辨率。

picture.image

应用场景

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

写在最后

Qwen-Image-Edit以其20亿参数架构,通过双路径控制实现精准中英文文字编辑和语义外观双重编辑,吸引了一大批AI创作者的关注及体验。

也是开源图像编辑领域,独家的一款中文生成和编辑能力超模的存在。

由于它属于全图重绘,相较于 FLUX Kontext 容易丢失细节,但瑕不掩瑜,它的精准中文编辑及语义外观双控,依旧让它无论从海报设计到IP创作都能让你事半功倍。

GitHub:https://github.com/QwenLM/Qwen-Image

picture.image

一款改变你视频下载体验的神器:MediaGo

字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!

英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!

PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
评论
未登录
暂无评论