最新开源的 DragGAN 官方应用来啦！浏览器内轻触鼠标、交互式编辑、在线体验

点击下方卡片，关注「集智书童」公众号

■ DragGAN ：用崭新的方式进行图像处理

火热近一个月的 DragGAN 源代码正式放出，目前在 GitHub 上已有超过 20,000 颗星标。该项目的论文被SIGGRAPH 2023 收录，论文以 StyleGAN2 架构为基础，实现了 “Drag” 关键点就能轻松 P 图的效果。

项目 GitHub 链接：https://github.com/XingangPan/DragGAN

picture.image 妈妈再也不用担心我学不会 Photoshop 啦

虽然最近扩散模型飞速发展，并产生了令人十分惊喜的逼真图像效果，然而，自然语言无法对图像的空间属性进行细粒度控制，文本条件方法主要用于高级语义编辑。此外，当前的扩散模型推理较慢，因为它们需要多个去噪步骤。因此，通过 GAN 作为图像编辑的思路，仍是一种行之有效的方法，基于 GAN 的学习生成图像流形，做出更加逼真的输出。比如在官方 Demo 中，作者轻触鼠标，一拖一拽，让狗狗微笑、让猫咪"Wink"、让倒影拉长、让太阳升起......完美贴合现实世界的物理结构和物理逻辑。

根据论文中的介绍，DragGAN 是一种用于直观基于点的图像编辑的交互方法。利用预先训练的 GAN 来合成不仅精确跟随用户输入的图像，而且停留在真实图像的流形上。

与之前的许多方法相比，是一个不依赖于特定领域的建模或辅助网络的通用框架。这是基于两种新方法实现的：一是对隐编码的优化，这些隐编码增量地将多个抓取点移动到它们的目标位置；二是通过点跟踪过程来准确地跟踪抓取点的轨迹。

这两个组件利用 GAN 中间特征图的判别质量来进行图像变形，实现交互性能。目前已经证明，此方法在基于 GAN 的操作中优于最先进的方法，并为使用生成先验的强大图像编辑开辟了新的方向。而对于未来的工作，作者计划将基于点的编辑扩展到 3D 生成模型。

picture.image DragGAN 方法

picture.image

此外，论文中提到该方法具有从训练图像分布中创建图像的外推能力，例如，狮子长大的嘴巴和放大的轿车车轮。

picture.image

项目主页： https://vcai.mpi-inf.mpg.de/projects/DragGAN/

该项目的一作潘新钢老师是南洋理工大学 School of Computer Science and Engineering （SCSE）的助理教授，隶属于 MMLab-NTU 和 S-Lab。研究方向包括计算机视觉、机器学习、和计算机图形学，主要关注生成式 AI 和神经渲染。潘老师（个人主页 https://xingangpan.github.io/）与马普所、香港中文大学、上海人工智能实验室、商汤科技等国内外 AI 实验室有广泛的合作。主要工作包括本文介绍的 DragGAN，以及 GAN2Shape，Deep Generative Prior 等。

潘老师近期正在招生，欢迎对生成式 AI 感兴趣的同学申请，详细内容见：https://mp.weixin.qq.com/s/5wzOb23Wx3i2hl31oYMRIg

■ DragGAN APP：无需部署，在线体验

是不是觉得 DragGAN 效果很神奇？现在无需部署，开箱即玩！我们联合项目作者潘老师，在项目开源的第二天火速上线了 DragGAN 在线体验应用。比如通过拖动衣服的袖口、裤尾、领带或配饰来更改穿搭的款式和风格；通过拖动身体的某个部位来更改人的姿势和表情；通过拖动宠物的眼睛或嘴巴来做一些动作；通过拖动风景照中的树木和山川，来改变眼前的景色。

如果你希望改造 AI 生成的图像，现在有了一种崭新的方式——不妨打开 DragGAN 试一试，因为它几乎不需要学习成本，通过简单的拖拉拽既可对图像进行轻松编辑。

picture.image

应用体验链接：（文末点击阅读原文可直达）

https://openxlab.org.cn/apps/detail/XingangPan/DragGAN

浦源内容平台（ https://openxlab.org.cn/apps ）是面向 AI 研究员、开发者和使用者的一站式应用开发平台，同时也提供包括模型免费托管和数据集下载等服务。目前，平台已和诸多高校老师、AI 顶会作者、社区用户建立联系，共建 AI 应用，欢迎大家进入平台交互式地体验各种有趣的 AI 应用，或发挥灵感，创建属于你的 AI 应用。

除此之外，内容平台还有很多其他有趣的 Demo （涵盖 AIGC、计算机视觉、AI4Science......诸多方向），欢迎小伙伴们来在线体验，扫码进群交流~

picture.image