点击下方卡片,关注「集智书童」公众号
■ DragGAN :用崭新的方式进行图像处理
火热近一个月的 DragGAN 源代码正式放出,目前在 GitHub 上已有超过 20,000 颗星标。该项目的论文被SIGGRAPH 2023 收录,论文以 StyleGAN2 架构为基础,实现了 “Drag” 关键点就能轻松 P 图的效果。
项目 GitHub 链接:https://github.com/XingangPan/DragGAN
妈妈再也不用担心我学不会 Photoshop
啦
虽然最近扩散模型飞速发展,并产生了令人十分惊喜的逼真图像效果,然而,自然语言无法对图像的空间属性进行细粒度控制,文本条件方法主要用于高级语义编辑。 此外,当前的扩散模型推理较慢,因为它们需要多个去噪步骤。 因此,通过 GAN 作为图像编辑的思路,仍是一种行之有效的方法,基于 GAN 的学习生成图像流形,做出更加逼真的输出。 比如在官方 Demo 中,作者轻触鼠标,一拖一拽,让狗狗微笑、让猫咪"Wink"、让倒影拉长、让太阳升起......完美贴合现实世界的物理结构和物理逻辑。
根据论文中的介绍,DragGAN 是一种用于直观基于点的图像编辑的交互方法。利用预先训练的 GAN 来合成不仅精确跟随用户输入的图像,而且停留在真实图像的流形上。
与之前的许多方法相比,是一个不依赖于特定领域的建模或辅助网络的通用框架。这是基于两种新方法实现的:一是对隐编码的优化,这些隐编码增量地将多个抓取点移动到它们的目标位置;二是通过点跟踪过程来准确地跟踪抓取点的轨迹。
这两个组件利用 GAN 中间特征图的判别质量来进行图像变形,实现交互性能。目前已经证明,此方法在基于 GAN 的操作中优于最先进的方法,并为使用生成先验的强大图像编辑开辟了新的方向。而对于未来的工作,作者计划将基于点的编辑扩展到 3D 生成模型。
DragGAN 方法
此外,论文中提到该方法具有从训练图像分布中创建图像的外推能力,例如,狮子长大的嘴巴和放大的轿车车轮。
该项目的一作潘新钢老师是南洋理工大学 School of Computer Science and Engineering (SCSE)的助理教授,隶属于 MMLab-NTU 和 S-Lab。研究方向包括计算机视觉、机器学习、和计算机图形学,主要关注生成式 AI 和神经渲染。潘老师(个人主页 https://xingangpan.github.io/)与马普所、香港中文大学、上海人工智能实验室、商汤科技等国内外 AI 实验室有广泛的合作。主要工作包括本文介绍的 DragGAN,以及 GAN2Shape,Deep Generative Prior 等。
潘老师近期正在招生,欢迎对生成式 AI 感兴趣的同学申请,详细内容见:https://mp.weixin.qq.com/s/5wzOb23Wx3i2hl31oYMRIg
应用体验链接:(文末点击阅读原文可直达)
https://openxlab.org.cn/apps/detail/XingangPan/DragGAN
浦源内容平台( https://openxlab.org.cn/apps )是面向 AI 研究员、开发者和使用者的一站式应用开发平台,同时也提供包括模型免费托管和数据集下载等服务。目前,平台已和诸多高校老师、AI 顶会作者、社区用户建立联系,共建 AI 应用,欢迎大家进入平台交互式地体验各种有趣的 AI 应用,或发挥灵感,创建属于你的 AI 应用。
除此之外,内容平台还有很多其他有趣的 Demo (涵盖 AIGC、计算机视觉 、AI4Science......诸多方向),欢迎小伙伴们来在线体验,扫码进群交流~
[
模型精度不降反升!飞桨是这样改进PACT量化算法的!](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247510248&idx=2&sn=d049dfb95d2cf5fce9b9b8e472b61979&chksm=feb84856c9cfc1403a3ef57d8daf503730359b8d45310d028d9bf33a4f7ae530dd28b45b6af3&scene=21#wechat_redirect)
[
[
谷歌在一个函数中放入 2 万个变量,引发 Firefox 崩溃;](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247510118&idx=2&sn=a27c8ebb2bb1e1799b82c1878dfc93c7&chksm=feb848d8c9cfc1ce63f975631bd07d2c4177e91fb2a4f768e20be363fa5732ce1f2dafde9d4d&scene=21#wechat_redirect)
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
点击下方“阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」