Midjourney向左，DALL.E向右，Stable Diffusion在自由生长 - 文章 - 开发者社区

最近AI绘画三家对比的帖子越来越多，但各位吃瓜群众在为各自喜欢的工具站台的时候，这三个巨头可能已经不在一个赛道上竞争，这也是国外产品的优良传统：不做同质化，各自在深耕。先用一个类比来说明我的观点：

Midjourney走的是艺术人文派
DALL.E走的是理工科学派
Stable Diffusion走的是街头涂鸦派。

picture.image

三者并不冲突，AI绘画师们很可能要三种工具都掌握，以应对不同的需求场景。对，“AI画师”这个职业已经是AI绘画工具诞生后的一个新兴职业，关于这个新职业，单开另一篇讲。接下来先来说说闭源的MJ和DALL.E.3，毕竟开源的SD太过自由，不好下结论，其次我个人也没有前两者用的多，也欢迎各位高手留言讨论。

我先用一个例子来说明为什么MidJourney是艺术人文派， DALL.E走的是理工科学派。

我的初衷是我想用加拿大儿童艺术家Maud Lewis的风格复现古诗《所见》（清·袁枚）：“牧童骑黄牛，歌声振林樾。意欲捕鸣蝉，忽然闭口立”，试试看能否做到中文古诗与西方绘画的”中西合璧“。

picture.image

1.MidJourney美如艺术家

为了初步选定我绘画的工具，我把相同的一段提示词分别输入MidJourney与DALL.E。

a child on an ox, on a vast land, mountain as background , art of maud lewis 一个孩子骑在牛上，在广阔的土地上，以山为背景，莫德刘易斯的艺术。

下图是结果，可以明显看出MJ比较完美的复现了maud lewis的风格，而DALLE 3 艺术家maud lewis的风格几乎没有识别到。

picture.image

然后我又把maud lewis 在DALL 3 里去掉，发现几乎没有影响。

picture.image

于是在第一轮的绘画中，我决定选择MJ 完成后续创作。接下来下一步要完成古诗中的后半句：

“意欲捕鸣蝉，忽然闭口立。”

DALL.E精准如理工生

我的提示词是希望画面中的孩童从牛上"闭口立"，即孩童从牛上站起来，把嘴巴闭上。提示词如下：

medium shot of an ancient Chinese child standing from the ox, mouth closed, vast land, mountain as background , art of maud lewis, simple , green and white. 一个中国古代孩童的从牛上站起来的近景，嘴巴紧闭，广阔土地，山为背景，Maud Lewis艺术风格，简单，绿色，白色。

MidJourney 给我的图中最滑稽是第二、四张，竟然变成了一个人头牛身的怪物，同样的提示词输入DALLE,虽然不是那么完美(部分原因是因为我的提示词不够详细)，没有出现逻辑错误。

picture.image

第二局DALL.3胜在了逻辑，事实上DALL.E3的精准逻辑是完全继承了GPT4的强大逻辑推理功能。如果大家还记得的话，在GPT4刚刚出来的时候，微软有一篇长达150页的论文中评测GPT4，其中有一道题是实验人员把独角兽的角去掉之后，再让GPT把角恢复，GPT竟然也可以将”角“恢复在正确的位置上。DALL.E3在图片的”理解“上是更胜一筹。

picture.image

(注：图片是由GPT4撰写的TikZ代码生成的，当时DALL.E3还没有问世）。

在这里，我仅仅是举了一个例子，我再列举之前一些图片作为支撑。其实长达几个月的体会，这些不同之处在两个绘画工具中的体会是非常明显的。

picture.image

Stable diffusion在自由生长

Stable diffusion我使用的不算多，但Stable diffusion在“众人拾柴”的情况下，已经训练不少Lora风格，我引用Stable Diffusion模型GhostMix的作者，Civitai名字Ghost_Shell，某乎账号“GhostInShell”的作品（已授权）来说明一下。

picture.image

作为开源之首，Stable diffusion未来一定会有更多的风格。纵观每次技术革命中的开源产品，比如操作系统的Linux，浏览器的firefox，手机操作系统的android，他们都推动着整个技术的前进，相关人才的诞生，为技术最终走向成熟立下了汗马功劳。

溯源求本

其实，如果我们仔细追溯上述三个产品的源头，就不难发现在外在表现的底层，其实早已注定了未来三个产品的发展方向。

4.1 MidJourney之源

MJ的创始人David Holz在iphone开创了平面触摸交互的时代，就创办了一家名叫Leap motion的公司从事3D的交互，之后公司开始专注于研发3D，VR，在创始人的多次访谈中，他都提及未来是3D虚拟世界和真实世界完全交融的生活。而他所希望的3D虚拟世界是“美好”世界，所以，MidJourney的图片真的是美的，人文的。

4.2 DALL.E.之源

DALL.E之父是一帮来自open AI的计算机科学家，拥有像“GPT4”这样强大的兄弟产品，在DALL.E官网上提供的论文里，清晰的描述了你应该给DALL.E什么样的提示词，总的来说就是DALL.E能理解提示词中提到的方位、色彩等逻辑关系，可以说，提示词对画面的控制力仿佛就是代码对程序的控制力一样。感兴趣的同学可以看看:

https://cdn.openai.com/papers/dall-e-3.pdf

4.3 Stable Diffusion之源

Stable diffusion最初是源于Mostaque 在2020年创办的 Stability AI，在2022年8月宣布开源，当然，他们开源的原因部分可能是受到MidJourney和DALL.E的实力碾压，就像大语言模型界的facebook Llama2一样。开源的特点历来就是：我命由我不由天！所以诞生了大家所看到的的丰富风格。

对AI绘画者的建议

其实讲到这里，选择哪种工具可能也不是难题，那就是看你所需要的场景。

另外一个角度，如果我们把图片设计的流程纵向归结为：创意诞生->风格定型 ->精准控图 -> 作品诞生，那么在一个场景的不同流程中是否我们也可以使用不同产品。

未来我们可能是这样操作的：

1. 人的思考诞生创意。
1. 使用MidJourney， Stable diffusion尝试不同风格。
1. 调出基础风格后，通过DALL.E，Adobe firefly 在基础风格上精准控图

所以MidJourney，DALL.E，Stable diffusion可能真的不是对手，而是合作伙伴。

我是关注AI产品的产品二姐，致力于带来丰富的AI学习分享、体会，欢迎关注、点赞、转发、收藏。