实测 Google I/O 放出来的 Imagen4，不如GPT4o、甚至不如Imagen3。。 - 文章 - 开发者社区

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

写公众号这么久，封面图这事儿吧，以前我基本都交给 Whisk（或者说老版本的 Imagen3）来搞定，省心省力。

效果呢，也算中规中矩，比如我几乎每期 Cursor 更新的封面，都是用这个老伙计 Prompt 生成的：

这是一个宁静的极简图像与柔和的，浅青色背景和漫射光。这个场景有一个浅的景深，稍微不饱和，并具有颗粒状的纹理，创造了一种自然宁静的氛围。在中心悬挂着一个三维的浅灰色几何形状，类似于一个立方体，由许多三角形面构成，上面撒着一层浅白色的霜，优雅地悬挂在树枝上。立方体主要呈现橙红色调，边缘呈深灰色阴影，与凉爽的背景形成鲜明对比。在它的右边，文字“光标代理+聊天”以白色无衬线字体出现，带有微妙的磨砂效果，均匀间隔，完全大写。充满活力的粒子效果像数字火花一样围绕着立方体舞动，增强了未来主义的气氛，而一个半透明的时间隧道发射出类似激光的光束穿过背景。这个动态元素标志着即将发布的Cursor新版本。

picture.image

我又把同样的‘考卷’扔给了 Imagen 4，特地让它画了4张，不仅审美感觉‘不在线’，文字表达也像刚学写字的小朋友，歪歪扭扭。

picture.image

这还不是偶然，我又换了两个 Prompt 试了试（可以看下图，上面是 Imagen 4，下面是 Image3）。

picture.image

Imagen 4，难看啊。。

picture.image

这些封面提示词，想看的可以到这里来：

https://z0kdt9b641u.feishu.cn/wiki/W7IUwzzDsiQ818kBHDmcw6zLnMc

我们来看看更宏观的AI模型偏好度评分。最近 Artificial Analysis 公布了一份 Text-to-Image 模型的 Elo 评分图（可以理解为 AI 绘画界的‘天梯分’）：

picture.image

从这个图上，大家可以大致看到不同模型在用户偏好度上的一个排位。当然，评分只是一个参考维度，具体表现还得看实际出图。

高评分往往意味着更好的指令理解和更讨喜的审美，而低延迟则代表着更高的创作效率。

Imagen 4 Uttra 性能比4o差一些，但是快几倍。

而这里我们用的是 whisk提供的 Imagen 4测试：

https://labs.google/fx/tools/whisk/

picture.image

封面这事儿吧，大概就这样了。

其实在 AI 绘画这个方面，我一直有个小小的爱好——就是想看看 AI 到底能把现实图片模仿到多逼真。

之前有条视频，有许多没认出来的（我发了一条AI视频，这么多人点赞和“意外真实”。。？）。

来自4o生成的结果：

picture.image

然后这里：左边是 Imagen 4，右边是 Imagen 3。（4比3在生成现实图片方面，大体感觉好一些）

picture.image

继续看看，我用4o生成的图片再配合通义万相，做了一个短视频的开头（前3秒）。

没用可灵是因为太慢了，懒得等了，我日常跑case的时候，几个ai生成视频的平台一起跑，还不错的，就可以平替下了。

而imagen 4生成的封面是这个样子的。

picture.image

没法用，一眼ai。

在指令遵循和理解上4o比他好很多。

下面这个例子就很直观。

创造一张看似随手拍下、毫不起眼的 iPhone 自拍照，整体画面刻意追求“平庸真实感”，没有明确的主体、构图杂乱无章，角度也略显尴尬，仿佛是掏手机时不小心按下快门的瞬间捕捉。画面中的光线来自自然阳光或室内灯具，但由于角度与强度控制不当，局部出现轻微过曝或阴影覆盖的现象。

照片的主角是一只猫，它戴着尺寸不协调的电竞耳机，仿佛正沉迷于英雄联盟的激战中。猫咪表情自然甚至有点呆滞，没有刻意摆拍的痕迹，整个画面看起来像是朋友在调侃中用手机随意一拍。

Imagen 4 生成的猫，感觉不是在打英雄联盟，像是在开拖拉机，耳机像P的。就。。理解得乱七八糟。

picture.image

3是这个样子

picture.image

4o还是厉害：

picture.image

这种‘现实风格’的 Prompt 玩法还有很多。比如，我还试了让 imagen 4 生成‘穿着JK制服的可爱女孩对镜自拍’

帮我生成一张图片：图片风格为「人像摄影」，请你画一张及其平凡无奇的iPhone对镜自拍照，主角是穿着JK风格cos服的可爱女孩，在自己精心布置的可按风格的房间内的落地镜前用后置摄像头随手一拍的快照。照片开启了闪光灯，略带点快门速度不够导致的运动模糊，构图混乱，整体呈现出一种平庸和日常感，比例「9:16」。

picture.image

别说，有几分豆包的味道。

image3，似乎没有遵照指令生成现实的：

picture.image

还有这个‘好奇的小龙猫’，重点是模拟‘路人床边抓拍’的运动模糊和手机噪点：

一只好奇的小龙猫（身形略胖，毛发蓬松）探出头来，四爪微撑在两侧抱枕之间，镜头俯拍角度略微倾斜。背景是一只透明宠物笼和散落的垫料，光线柔和且略显自然溢光，局部有轻微过曝和对焦漂移。画面整体仿佛真实路人在床边抓拍，略带运动模糊与手机噪点，让人一眼难辨是真人宠物还是 AI 创作。

imagen 4

picture.image

imagen 3

picture.image

gpt4o，顺便又用剪映AI创作了一个小鼠炒饭的视频：

让‘粉嫩小猪在万米高空飞翔’，还要模拟‘乘客手机舷窗外随手拍’的效果，带上玻璃反光和机舱框架：

超写实照片风格，一只粉嫩的幼年小猪正在万米高空自由飞翔：

• 小猪全身毛发细节清晰，脸颊和鼻尖有湿润光泽；

• 背景是深蓝渐变的天空和翻涌云海，透出远处山脉轮廓；

• 画面像乘客用手机在飞机舷窗外随手拍摄，俯拍角度略微倾斜，窗口玻璃反光和机舱框架隐约可见，带有轻微运动模糊；

• 整体效果像现实中突然闯入的“猪猪版超人”，让人一眼难辨真伪。

负向提示词：卡通化、塑料质感、CGI 渲染、HDR 过度、完全对称、过度锐化

imagen4：

picture.image

4o：

picture.image

对比一下 4、3 和 4o 生成的便签纸，同样是要求‘真实笔触与墨迹颗粒感’、‘边缘折痕与指纹’、‘业余或意外的瑕疵感’… 4o 在细节还原和整体氛围营造上，确实更接近我们想要的那种‘有灵魂的差’。

在一块软木板背景上，用四色图钉固定一张淡黄色便签纸，便签上用蓝／绿／橙三色签字笔依次手写

“Reflection — 列出5–7种可能原因”、“Distill — 锁定1–2个核心假设”、“Log — 插入日志，验证假设”和“Fix — 实施最终代码补丁”；

字迹须呈现真实笔触与墨迹颗粒感，便签边缘留有折痕与指纹痕迹。照片本身要故意带有业余或意外的瑕疵感：采用自然环境光，造成部分区域轻微过曝或欠曝；构图刻意倾斜、非黄金分割；存在手抖导致的轻微模糊；背景隐约可见办公桌面杂物；

picture.image

下面还有case，不一一介绍，左中右分别是4、3、4o。

一则简约且富有创意的广告，设置在纯白背景上。

一个真实的 [真实物体] 与手绘黑色墨水涂鸦相结合，线条松散而俏皮。涂鸦描绘了：[涂鸦概念及交互：以巧妙、富有想象力的方式与物体互动]。在顶部或中部加入粗体黑色 [广告文案] 文字。在底部清晰放置 [品牌标志]。视觉效果应简洁、有趣、高对比度且构思巧妙。

picture.image