哈喽大家好!这里是AIZ
今天带来的是“半个圈内人”系列的第三篇文章——有关AI绘画领域大家常听到的概念详解。
随着这几年AIGC的蓬勃发展,AI在各个领域当中的表现得到越来越多人的重视。而除了最为普及的大语言模型,最让人兴奋的我想当属AI绘画了,其拥有的用户群体数量不计其数,遍布各个视觉相关领域。
但从实际情况来看,很多人在了解和学习的过程中,会被其中一些看似复杂且专业的概念所困惑,以至于经常一知半解。
小问题!今天我会详细解读在AI绘画当中,经常会听到或看到一些概念。
具体内容包括SD1.5/SDXL、Checkpoint、Dreambooth、Lora、ControlNet(CN)、WebUI、ComfyUI、“炼丹”这八个概念:
SD1.5、SDXL...
SD1.5 (Stable Diffusion 1.5) ,是 Stability AI 于 2022 年发布的根据文本生成图像的AI模型。
该模型训练参数规模约为9.8亿,训练所用数据集中的图片分辨率主要为512px*512px,文本理解偏向“关键词组”的形式,对于长文本(偏向自然语言)处理效果较差。
假设你想基于SD1.5来生成一幅具备一定特征的画面,那提示词的两种写法分别如下:
自然语言:一名面带微笑的女孩的全身展示画面,她留着一头黑色的长发,穿着白色长裙和红色高跟鞋,在草地上飘飘起舞,背景是蓝天白云。
关键词组:一个女孩,全身展示,微笑,黑色长发,白色长裙,红色高跟鞋,草地,蓝天白云,跳舞。
而SD1.5系列模型,更适合用第二种方式,也就是“关键词组”形式进行提示词的输入。
而SDXL(Stable Diffusion XL) 是 Stability AI 于 2023 年推出的升级版模型,旨在解决 SD1.5 的局限性,并提升生成图像的细节和多样性。
该模型的训练参数规模达几十亿+,训练所用数据集中的图片分辨率主要为1024px*1024px,同时能够更好的支持自然语言描述,可以更好的理解复杂语义。
所以无论是SD1.5还是SDXL,其实都很好理解,本质上就是技术不断迭代更新后产生的不同版本的模型。
当然,这两代模型都已经算元老级别的了,目前SD的模型早已更新到SD3.5,但因为SD1.5和SDXL已经搭建起非常完善的操作生态(基于模型形成的插件、环境生态等),所以目前依旧拥有海量的用户群体。
Checkpoint
假设你现在去跟通义千问聊天,它肯定是基于内部最新的大语言模型Qwen3来进行理解和回复的,而你所看到的界面,不过只是一个“壳”而已。
同理,你想进行AI绘画,Checkpoint就是这个“大语言模型”,当然啦,它是用来生成图像的,不是生成文本的,所以在AI绘画中,直接管它叫大模型。
那好歹也是叫大模型嘛,其内存体积自然也是比较大的,基本都在2GB及以上,有些比较新的大模型,更是达到了10GB甚至20GB+。
基于上述内容,我们也可以得出以下结论:无论是SD1.5,还是SDXL...本质上都是一个Checkpoint(大模型)。
而这些年大家在各大AI社区平台上看到的海量Checkpoint,几乎都是基于像SD1.5、SDXL...这些基础大模型进行微调训练而成,它们之间的区别在于:
SD1.5、SDXL...这些属于最基础(原生态)的Checkpoint,什么都能够生成,但貌似什么都不精(当然有夸张的成分),或者说很多东西能够生成,但是品类不全...也正因为这个原因,各大模型创作者根据自己的想法,将自己想赋予大模型专精的风格/元素/场景等通过微调训练技术融入到基础大模型中,使得训练出来的大模型在这些风格/元素/场景的生图表现更加符合作者的预期,从而诞生了如今海量的Checkpoint。
假设你想用基础的SD1.5模型生成符合你审美的中国校园女神形象,但是你发现无论你的提示词如何打磨,都生成不出你满意的形象。
这时候,你搜寻了2000张符合你审美的中国校园女神图片,将它们作为训练用的数据集,通过微调训练技术,将这些图片的风格、人物形象等特征融入到基础大模型SD1.5当中,最后得到一个新的大模型。
之后你再用这个新的大模型进行符合你审美的校园女神形象生成,它就会参照你“投喂”给它的图片集中的风格、人物形象等特征进行最终的图像生成,以达到你满意的效果。
Dreambooth
Dreambooth是AI绘画领域的一种模型微调技术,它允许用户通过一定数量(支持少量)的样本图片,“教”AI学会生成特定风格/对象/场景/元素的图像。
这段定义听起来是不是很耳熟?没错,这就是上面提到的对Checkpoint进行微调训练目前主流的一种技术。
Lora
我们经常会在各大模型平台上看到很多模型的上方都标着“Lora”的字样,或者经常听到别人说“定制一个Lora”等等,那Lora到底是个什么玩意儿?
其实想把这个东西讲得详细又通俗易懂稍微会有点绕,特别是当它与Checkpoint放在一块儿时。
但问题便在于,当需要Lora时,Checkpoint同样是必不可少的,所以我们绕不开Checkpoint。
Lora,翻译过来全称叫低秩适应模型,这名称又绕口又难理解,非技术人员听了鬼知道这是个啥,所以在AI绘画中,经常简单地管叫它小模型,或者直接就叫Lora。
既然是小模型,那相比较于Checkpoint,其内存体积当然就要小得多,绝大多数Lora的体积都是在几十MB到几百MB之间。
那如此轻量的模型,能干什么呢?
我们还是以上面在Checkpoint板块中所举的例子来讲,这也就意味着,你现在手头上已经拥有了一个能够生成符合你审美的校园女神形象的大模型了。
但某一天,你突然想要生成一个身穿深圳高中校服的校园女神形象,但很遗憾的是,当初收集的那2000张图片中,就是没有一张图片中的女生是身穿深圳高中校服的。
也就意味着,现阶段你的这个大模型压根就不知道深圳的高中校服长什么样,所以无法满足你的要求。
那怎么办,难道要从0开始再训练一个大模型吗?
不,这样算力和时间成本都太高了,所以你只需要将少量身穿深圳高中校服的女神图像制作成一个数据集,然后基于你先前训练得出的大模型,单独训练成一个体量很小的小模型(Lora)。
最后,将训练得出的这个Lora与你之前训练出来的Checkpoint相搭配,再输入相应的提示词,就能生成符合你要求的形象。
结合上面的描述,我们总结一下Checkpoint(大模型)和Lora(小模型)的优劣势:
维度 | ||
Checkpoint | ||
Lora | ||
简单定义 | ||
AI绘画的基础大模型 | ||
基于大模型训练而成的轻量小模型 | ||
优势 | ||
* 完整性: | ||
包含完整的模型参数 |
-
独立性: 可独立生成图像
-
兼容性: 与插件、小模型等兼容性强 | * 低成本:数据集小,算力及时间成本低
-
轻体量:内存体积小(几十MB-几百MB)
-
可叠加:可同时加载多个Lora搭配使用 | | 劣势 | * 高成本:参数复杂、数据集庞大,算力及时间成本高
-
体量大:内存体积大(≥2GB) | * 依赖性:无法独立生成图像,必须与大模型搭配使用
-
受限性:模型的效果受限于搭配使用的大模型; | | 必要性 | 必须存在:Checkpoint 是AI绘画的“操作系统”,是所有生成任务的基础,没有它将无法运行(生图) | 补充存在: Lora 是 Checkpoint 的“扩展插件”,提供低成本、快速定制的灵活性 |
ControlNet(CN)
之前在网上看到这样一句话——“如果没有ControlNet,AI绘画的用户数量至少得减少一半”。
虽然这句话可能有夸张的成分,但也恰如其分地体现出了CN在AI绘画界的重要性。
2023年之前的AI绘画是这样的:它可以给你生成一张不错的室内效果图,但无法满足定制化的需求,例如基于你家毛坯房的结构进行设计渲染;它可以给你绘制一个体态端庄优雅的女性,但无法满足你对特定姿态的幻想【比如来个闪电五连鞭(狗头)】...等等这些。
直到2023年2月,一款AI绘画领域的插件横空出世,极大程度提高了AI绘画的可控性、定制性以及落地性,这款插件,就是ControlNet。
ControlNet是一款AI绘画领域的插件,其允许用户通过提供额外的条件或“控制”信息来精确指导AI生成图像的过程。这些条件可以包括草图、边缘检测图、人体姿态图等多种形式,使得最终生成的图像能更准确地反映用户的创意和意图。让用户能够像指挥助手一样细致地控制创作过程中的各个方面,极大地提高了图像生成的可控性和灵活性。
这里给大家简单列举几种常用的CN控制类型:
控制类型 | ||||
名称描述 | ||||
主要用途 | ||||
示例应用 | ||||
| | Lineart | 线稿检测提取 | 识别提取图像的线条,让AI参考原图像的线条结构 | 提供一张你美丽又帅气的自拍照,利用动漫风格的模型结合Lineart,让AI给你以同样的结构换个人 |
| | Depth | 深度图 | 利用黑白灰度来引导AI识别图像中各元素的前后关系,控制生成图像的空间层次 | 提供一张风景图作为参考,结合以Depth,让AI为你生成一张跟参考图具有一致前后关系的风景图 |
| | OpenPose | 人体姿态检测 | 识别人体及面部的关键点(关节、肢体等),控制人物动作和姿态 | 提供一张正在跳芭蕾舞的女孩图片,结合OpenPose,让AI为你绘制具备相同舞姿的另外一个女孩 |
| | IP-Adapter | 风格迁移 | 结合参考图的风格和文本提示词,促使AI生成符合特定风格的图像 | 结合将梵高的《星月夜》以及 IP-Adapter,让AI绘制一个跟 《星月夜》画面同样风格的女孩 |
| | Segmentation | 语义分割 | 将原图像分割为多个对象或区域(如天空、建筑、树木),独立控制每个部分的生成 | 提供一张你的自拍照,结合 Segmentation,将你的头发变成绿的 |
|
WebUI
WebUI(Stable Diffusion WebUI) 是一个功能高度集中的用户界面工具,专为 SD生成模型设计。
它以 简单直观的操作 为核心,用户可以通过浏览器访问。其界面布局简约,功能高度集成,用户只需要通过点选、输入提示词的方式,就能快速生成图像,适合 初学者和非技术人员 快速上手。
其核心优势在于 易用性 和 快速出图 ,但自定义能力和复杂流程控制相对较弱。
ComfyUI
ComfyUI 是一种基于 节点式工作流 的用户界面工具,用户通过 拖拽和连接模块(节点)来构建图像生成流程。每个节点代表一个独立的步骤,用户可以自由组合节点,实现高度定制化的创作。其核心特点是 灵活性和模块化 ,支持复杂的工作流设计,适合 高级用户或专业创作者 对生成过程进行精细化控制。
所以说白了,无论WebUI还是ComfyUI,甚至还有ForgeUI,其实本质上都是为SD创作的用户操作界面,只是界面样式、操作方式的不同导致技术门槛的高低以及各自存在优劣势,下面为大家简单列举一下两者间的对比:
对比维度 | ||
WebUI | ||
ComfyUI | ||
操作方式 | ||
以点选为主 | ||
节点式操作,通过拖拽和连接节点自由构建工作流 | ||
复杂程度 | ||
简单直观,适合快速上手 | ||
复杂灵活,需要理解模块的运行逻辑 | ||
自定义度 | ||
有限,依赖预设功能 | ||
极高,可自由组合模块实现复杂需求 | ||
硬件要求 | ||
较低(一般4GB即可上手运行) | ||
相较于WebUI还低一些 | ||
学习难度 | ||
很低,适合新手 | ||
较高,需要一定技术基础 | ||
适用场景 | ||
快速生成、简单创作 | ||
复杂流程、专业定制 | ||
“炼丹”
其实“炼丹”指的就是训练AI模型。
而之所以会被称作“炼丹”, 是因为其过程与古代炼丹过程有些相似: 数据集是原材料 (如药材), 模型训练器是炼丹炉 , 参数调整如同控制火候 (学习率、模型结构等)。训练需要大量试错(反复调参)、耐心等待(耗费大量时间),且结果充满不确定性——可能成功生成“仙丹”(高性能模型),也可能失败或“炸炉”(模型效果不佳)。正因这种“玄学”的存在,因此得名“炼丹”。
好了,今天的分享到这里结束,我们下期见!
最后,如果你喜欢我的文章,欢迎你的关注;如果我的文章能给你提供一点价值,那将是我的荣幸,在此感谢每一位读者🙏
AIZ荐读
我的7000字长文自述:人人都需要AI的时代,我们一起成长!
一篇文章给你讲清楚:如何用DeepSeek快速制作各类图表(超详细)