最近AI绘画三家对比的帖子越来越多,但各位吃瓜群众在为各自喜欢的工具站台的时候,这三个巨头可能已经不在一个赛道上竞争,这也是国外产品的优良传统: 不做同质化,各自在深耕。 先用一个类比来说明我的观点:
- Midjourney走的是艺术人文派
- DALL.E走的是理工科学派
- Stable Diffusion走的是街头涂鸦派。
三者并不冲突,AI绘画师们很可能要三种工具都掌握,以应对不同的需求场景。对,“AI画师”这个职业已经是AI绘画工具诞生后的一个新兴职业,关于这个新职业,单开另一篇讲。接下来先来说说闭源的MJ和DALL.E.3,毕竟开源的SD太过自由,不好下结论,其次我个人也没有前两者用的多,也欢迎各位高手留言讨论。
我先用一个例子来说明为什么MidJourney是艺术人文派, DALL.E走的是理工科学派。
我的初衷是我想用加拿大儿童艺术家Maud Lewis的风格复现古诗《所见》(清·袁枚):“牧童骑黄牛,歌声振林樾。意欲捕鸣蝉,忽然闭口立”, 试试看能否做到中文古诗与西方绘画的”中西合璧“。
1.MidJourney美如艺术家
为了初步选定我绘画的工具,我把相同的一段提示词分别输入MidJourney与DALL.E。
a child on an ox, on a vast land, mountain as background , art of maud lewis 一个孩子骑在牛上,在广阔的土地上,以山为背景,莫德刘易斯的艺术。
下图是结果,可以明显看出MJ比较完美的复现了maud lewis的风格,而DALLE 3 艺术家maud lewis的风格几乎没有识别到。
然后我又把maud lewis 在DALL 3 里去掉,发现几乎没有影响。
于是在第一轮的绘画中,我决定选择MJ 完成后续创作。接下来下一步要完成古诗中的后半句:
“意欲捕鸣蝉,忽然闭口立。”
- DALL.E精准如理工生
我的提示词是希望画面中的孩童从牛上"闭口立",即孩童从牛上站起来,把嘴巴闭上。提示词如下:
medium shot of an ancient Chinese child standing from the ox, mouth closed, vast land, mountain as background , art of maud lewis, simple , green and white. 一个中国古代孩童的从牛上站起来的近景,嘴巴紧闭,广阔土地,山为背景,Maud Lewis艺术风格,简单,绿色,白色。
MidJourney 给我的图中最滑稽是第二、四张,竟然变成了一个人头牛身的怪物, 同样的提示词输入DALLE,虽然不是那么完美(部分原因是因为我的提示词不够详细),没有出现逻辑错误。
第二局DALL.3胜在了逻辑,事实上DALL.E3的精准逻辑是完全继承了GPT4的强大逻辑推理功能。如果大家还记得的话,在GPT4刚刚出来的时候,微软有一篇长达150页的论文中评测GPT4, 其中有一道题是实验人员把独角兽的角去掉之后,再让GPT把角恢复,GPT竟然也可以将”角“恢复在正确的位置上。DALL.E3在图片的”理解“上是更胜一筹。
(注:图片是由GPT4撰写的TikZ代码生成的,当时DALL.E3还没有问世)。
在这里,我仅仅是举了一个例子,我再列举之前一些图片作为支撑。其实长达几个月的体会,这些不同之处在两个绘画工具中的体会是非常明显的。
- Stable diffusion在自由生长
Stable diffusion我使用的不算多,但Stable diffusion在“众人拾柴”的情况下,已经训练不少Lora风格,我引用Stable Diffusion模型GhostMix的作者,Civitai名字Ghost_Shell,某乎账号“GhostInShell”的作品(已授权)来说明一下。
作为开源之首,Stable diffusion未来一定会有更多的风格。纵观每次技术革命中的开源产品,比如操作系统的Linux,浏览器的firefox,手机操作系统的android,他们都推动着整个技术的前进,相关人才的诞生,为技术最终走向成熟立下了汗马功劳。
- 溯源求本
其实,如果我们仔细追溯上述三个产品的源头,就不难发现在外在表现的底层,其实早已注定了未来三个产品的发展方向。
4.1 MidJourney之源
MJ的创始人David Holz在iphone开创了平面触摸交互的时代,就创办了一家名叫Leap motion的公司从事3D的交互,之后公司开始专注于研发3D,VR,在创始人的多次访谈中,他都提及未来是3D虚拟世界和真实世界完全交融的生活。而他所希望的3D虚拟世界是“美好”世界,所以,MidJourney的图片真的是美的,人文的。
4.2 DALL.E.之源
DALL.E之父是一帮来自open AI的计算机科学家,拥有像“GPT4”这样强大的兄弟产品,在DALL.E官网上提供的论文里,清晰的描述了你应该给DALL.E什么样的提示词,总的来说就是DALL.E能理解提示词中提到的方位、色彩等逻辑关系,可以说,提示词对画面的控制力仿佛就是代码对程序的控制力一样。感兴趣的同学可以看看:
https://cdn.openai.com/papers/dall-e-3.pdf
4.3 Stable Diffusion之源
Stable diffusion最初是源于Mostaque 在2020年创办的 Stability AI,在2022年8月宣布开源,当然,他们开源的原因部分可能是受到MidJourney和DALL.E的实力碾压,就像大语言模型界的facebook Llama2一样。开源的特点历来就是:我命由我不由天!所以诞生了大家所看到的的丰富风格。
- 对AI绘画者的建议
其实讲到这里,选择哪种工具可能也不是难题,那就是看你所需要的场景。
另外一个角度,如果我们把图片设计的流程纵向归结为:创意诞生->风格定型 ->精准控图 -> 作品诞生, 那么在一个场景的不同流程中是否我们也可以使用不同产品。
未来我们可能是这样操作的:
-
- 人的思考诞生创意。
-
- 使用MidJourney, Stable diffusion尝试不同风格。
-
- 调出基础风格后,通过DALL.E,Adobe firefly 在基础风格上精准控图
所以MidJourney,DALL.E,Stable diffusion可能真的不是对手,而是合作伙伴。
我是关注AI产品的产品二姐,致力于带来丰富的AI学习分享、体会,欢迎关注、点赞、转发、收藏。