定义新标准!Seedream 4.0:真4K高清 + 智能多图融合,让想象力无缝衔接

行业趋势

picture.image

一、链接你的想象力,支持4K高清、多图融合的国产文生图模型

“高清”和“有戏”总像鱼与熊掌——越想要细节,AI越给你一张“塑料脸”;想让它讲个宏大故事,它却只会给你拼贴几张 clipart。 9月11日晚,全新一代图像创作模型豆包. Seedream 4.0正式发布上线,一举拿下了Artificial Analysis「文生图」和「图像编辑」两大榜单的第一名,将细节表现力推向了前所未有的像素巅峰,更打破了图像创作的边界,让天马行空的构想得以无缝衔接、浑然一体。

它最狠的地方有两点: 1、4K 分辨率直接原生输出,不用后期“AI 放大”,发丝、裂纹、远景招牌上的小字都能数得清。 2、文本 + 图像混着“喂”,模型自己会“读气氛”,不再把提示词拆成八竿子打不着的元素硬凑,故事感一口气画到底。

Seedream 4.0是首个支持4K多模态生图的国产模型,灵活支持文本、图像组合输入,彻底打破了单次生成中的“词汇绑架”困境与元素分离壁垒,告别拼凑与模糊,同时支持4K高清生成,迎接无缝衔接的超高清视觉盛宴,引领AI创作迈向全新的超高清时代。

换句话说,高清和创意终于不用再二选一——对设计师、插画师、广告狗、影视分镜师来说,今晚可以少掉几根头发了。

(推荐在方舟AI体验中心轻量可以实现,体验地址:https://event1.cn/5LGO92) 免费使用10次,注册/登录后免费赠送 200 张推理额度

picture.image

二、理解力测试

首先我测试一下Seedream 4.0与之前的文生图有什么样子的差距。在之前吃榴莲千层的时候,我脑洞打开,千层的截面很像裂缝大峡谷,于是尝试将榴莲千层作为背景进行文生图。但效果不尽人意,模型在想象过程中把榴莲切面自动替换成训练样本中的峡谷图片。在短prompt提示词下,丢失了原有的主体性信息。在尝试Seedream 4.0时,首先选择默认配置2K分辨率,进行1:1生成。

picture.image

prompt:这是榴莲千层的切面,但是我想把它作为一个大峡谷,然后是下雪天有一个人拿着照明灯在地上,然后抬头望着大峡谷右边。人要小一点。

picture.image 相较于旧版的文生图模型,我发现Seedream 4.0更好地保留了“我认为”的主体性信息,能实现这个真的很难。我打算从参考图像中抽取榴莲的切面图进行二次想象创作,仅使用“乱打一通”的初版prompt,也能做到基本的理解与生成。

但我的想法是将原始图片作为背景,于是我对prompt进行了二次细化。因为Seedream 4.0提供了非常丰富的选项,而1:1不符合想象中大峡谷的巍峨感,所以我选择了9:16的竖屏比例。同时还有其他的选项可供实际业务参考。

picture.image

prompt:根据参考图中的信息,把参考图直接作为一个大峡谷的横切面作为新画面的背景,颜色、形状不需要变动,在此基础上进行其他因素生成,天气是下雪天,雪花铺满地以及积攒在缝隙中,有一个探险者拿着照明灯站在正中央,抬头望着右边的缝隙。主体人物需要更小,像是在小人国。画面需要,自然光,高清。

picture.image 系统默认4张生成图,我们可以从中挑选最优的结果。在这个例子中,第4张图完美生成了我想象中的样子!生成的图像完整保留了榴莲千层的原始图像,在看不到顶的"榴莲千层版"峡谷裂缝中,探险者由美食组成的世界里穿行探索。

三、图像融合测试

针对Seedream 4.0提到的多图融合测试,我也十分感兴趣。融合多张参考图并能提炼其参考部分,其核心挑战在于让AI真正理解多张输入图像之间的复杂关系,并创造性地、合理地将它们合成一个新颖、一致且高质量的视觉整体。在融合过程中的信息损失与扭曲是模型需要解决的核心问题。

我想到了在线上买衣服的时候,普通人可能没有那么多试错成本,但是我又很想看到自己的上身效果!于是我收集了几张衣服、鞋子、项链的图片,用于做图像融合测试,来实现我的时尚变装之旅( ̄▽ ̄)"。左滑右滑,换色、换码、换姿势,像给游戏角色捏皮肤,却是我自己的脸。试错成本直接降到零:喜欢再下单,不喜欢就“Delete”,连运费险都省了。看来以后衣柜能不能扩充,得先问AI同不同意。

picture.image 同时为了体验到模型提到的4K高清画面,我在配置时选择了生成4K高清图像。接着,依次上传需要融合的图片,在prompt中编写想要参考的图片主体。

picture.image

prompt:想象一个女生穿图2的裙子,穿图3的鞋,戴图4的项链,抱着图1的猫,站在图5的山顶

效果还可以,把我想要的上身效果表达地很清楚。不过我选择的场景属实是有点诡异,高清是真的高清。人像与背景这块需要要在prompt里面表述得更清楚还能生成逼真的图片。

picture.image

四、连环画模式

我发现了一个相当有趣的功能——连环画模式。看漫画长大的我们,曾经也想成为一个漫画家。连环画模式可以根据一句话生成漫画、连环画。这让我不经想到可以利用这种功能实现小时候梦中的场景,也能用这种方式和朋友、和亲人分享所见所闻。

picture.image

prompt:一个小女孩在探险,变小钻进下水道之后看到一个有巨大鲤鱼的深坑。

picture.image

生成效果还是不错的,故事性比较完整,和prompt关键信息也对应上了,主人公没有多一只手或者脚,但放大镜的手柄没了,锦鲤也是画得不错。下水道锈迹斑斑,配合滴水的效果,也是非常符合常理。大致的情景描绘出来了,细节还有待提高。例如,小女孩携带着手电筒进入水坑,但是第二、第三张图手电筒不见了,第三张图甚至拿着蓝莓果汁!这个模型想象力“非常大胆”(bushi)。

Seedream 4.0的推出,其价值在于它不再是简单的“图像处理器”,而是一个具备深度视觉推理能力的“创意合作者”。它突破了单次生图的局限,为用户提供了前所未有的创作自由度和表现力,对于不善表达的创作者而言,可以通过以文本的方式去描述、细化自己心中的世界,为难以实现创建一个便于尝试的通道,以画面的冲击力进一步感受文本的魅力,让别人理解你的心中所想所感,这本身就是一件十分有意义的事情。反正比找参考图、拼素材、P 半天省事多了。。"( ̄_, ̄ )"画出来像不像,先不管;至少能让我把“你懂我意思吧”缩成一张图,省得打两百字解释~

你是否也曾为无法复述梦境而烦恼?快来Get你的想象力落地机器!

快到AI体验中心进行体验: 地址:https://www.volcengine.com/experience/ark?launch=seedream 短链接:https://event1.cn/5LGO92

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论