Open AI这次的GPT 4o,效果到底有多惊艳?

大模型图像处理机器学习

在上一篇文章我稍稍提了一嘴,说在上个月继谷歌推出Gemini2.0多模态模型之后,Open AI也推出了更加强大、效果更加惊艳的GPT 4o,而Open AI这一波也彻底磨灭了设计师们引以为傲的技术应用和流程操作门槛。

好,我们废话不多说,至于怎么一个效果惊艳,接下来让我们一起来感受一下被GPT 4o支配的体验

picture.image

首先,老样子,一个具备图像能力的模型,生图质量是其立足之本。

这里我们需要点击输入框下方的三个小点并选择创建图片。

picture.image

然后,按章上一篇文章中的提示词:一个60岁女人的面部写真;接下来,我们可以得到下面这张图:

picture.image

不难发现,GPT即便是最基础的文生图功能,跑出来的人物皮肤质感相较于其它的AI模型也是要真实很多的(除了Flux)

然后我们再试试其他的四组提示词:

  • 一个可爱的毛绒玩具的特写镜头,这个玩具被放在书桌上

  • 画面中是一对情侣的两只手紧握在一起的特写镜头

  • 一个航拍大场景,画面中是遍布绿植的山谷和壮观的瀑布

  • 画面是一间现代极简风格的起居室效果图

picture.image

不能说每一张都很惊艳吧,但是最后一张室内效果图不管是在提示词理解上还是从图像中物理结构的正确性来看,都是很离谱的

你以为这次GPT的文生图这样就完了吗?不!因为其本身就是一个具备海量知识的LLM(语言大模型),所以它还具备很逆天的视觉化图文能力,请看以下操作:

picture.image

接着,我们来试试它的提示词理解能力,也不废话,我们直接给它上强度:

picture.image

(好家伙,看到这要求,我估摸其他图像模型内心崩出一堆C语言)

但你别说,GPT 4o,玩的就是惊艳:

picture.image

你就说逆不逆天吧,一个不差,毫无错误!这谁受得了

最后,我们来试一试最重磅的图像编辑能力:

这里我们主要演示海报制作、产品迁移和图像转绘的效果

我们就随便拿上面跑出来的一堆动物来做底图,然后我们给它来上一嘴:

picture.image

最后的成果如下:

picture.image

这要是换之前...你就做吧,一做一个不吱声

下面来看看对于产品的迁移能力:

picture.image

picture.image

可以说效果是很炸裂的了,而且产品也保持着很高的一致性

最后是关于线稿的转绘:

picture.image

当然啦,我们不可能将GPT 4o的全部功能一次性展示全,肯定还有更多更好玩的东西等待着各位的发掘,就比如:我们可以拿它从0到1来进行IP设计的创意延伸

picture.image

也可以进行各种整蛊,比如给山姆奥特曼来点活

picture.image

同样,它也不是完美无缺的,一定还有很多需要改进的地方(这点我们留到下一篇文章再讲),但在我看来,虽说现阶段这个代表地球最强的多模态大模型还存在着一定的不稳定和局限性,但这毕竟也只是将LLM(大语言模型)与图像编辑功能高度整合的初代产物,至少在当下,已经为各大AI大模型厂商指明了方向!

最后,如果你喜欢我的文章,欢迎点赞、转发和关注;如果我的文章能为你提供哪怕一点价值,那将是我的万分荣幸,在此感谢每一位读者🙏

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论