- 作者:云中江树
- 微信:1796060717 (转载请联系作者)
- 时间:2024.10.24
- 社区:LangGPT
前言
现在,为聊天场景打造的大模型也可以生成图片。不仅有趣,还十分有用!
我说下面这张盘子图是 AI 大模型画的, 你敢信吗?
注意:不是文生图专用的 MJ、 SD画的,而是 原生文生文 大模型 画的!
很像,是不是!
下面这张中国水墨画也是!
我的世界游戏图片
万万没想到,我一个玩 AI 大模型的,通过这种方式挤进了 AI 绘画赛道!
一直以来,以 ChatGPT 为代表的大模型的主要应用场景都是聊天,生成文字。绘图是需要 MJ, DALL-E,SD 这些专用于生成图像的 AI 模型才能做到!
现在,通过生成文字的方式,AI 大模型可以原生绘画了!
当我画出上面几张图的时候,真的有被震惊到!要知道,几个月前,大模型能够画的图还是这种!
现在,全新的升级的 Claude 已经将大模型绘画的能力进化到一个全新的高度 !
文字大模型也有了审美,能够构图,能够绘画。
更关键的, AI 大模型画的 SVG 图像是可编程的!我们可以直接修改里面的代码实现图片元素的精准控制!
生产力绘图
尤其是在 生产力绘图上面,大模型绘图的优势尤为明显!
绘制汉语新解卡片
参考:国产AI也能玩转"汉语新解"?我用通义AI直出爆款文字卡片
绘制个人社交名片
绘制海报
这是江树在给工信部信通院进行提示词工程主题分享时做的一张海报,完全由 Claude 辅助绘制,通过多轮对话绘制完成,耗时 10min。
绘制 PPT 架构图
"四横三竖" 的系统架构图相信很多人都头疼过,通过大模型绘图,2min 即可搞定,效果如下。
绘制知识点总结图
这是文章中用到的一张图,同样完全由 Claude 辅助绘制,把知识点提供给 Claude,耗时 2min 即可完成。
绘制思维导图
这是江树制作的提示词全景图,完全由 Claude 辅助绘制,通过提供资料让Claude梳理后生成 markdown 思维导图,导入 xmind 生成,耗时 2 min。
绘制应用树状图
这是江树制作的提示词应用场景图,完全由 Claude 辅助绘制,通过提供资料让Claude梳理后直接生成 mermaid 图表生成,耗时 1 min。
这些图十分常用,并且都是MJ, SD 这些生图模型没办法实现的。
通过大模型是怎么画的呢?请看下文。
大模型是怎样画画的?
大语言模型(LLM)虽然主要处理文本数据,但通过各种巧妙的方式,它们也能够"绘画"。这些绘画方式各具特色,适用于不同场景。
本文将系统性地介绍这些方法,分析其优缺点,并提供具体示例。
绘画方式
- SVG 矢量图形
原理
- 通过生成 XML 格式的 SVG 标签描述图形
- 使用数学公式定义图形的路径和形状
- 支持基本图形元素和复杂路径
- ASCII 字符画
原理
- 使用 ASCII 字符排列形成图案
- 通过字符密度表现明暗层次
- 利用特殊字符创造线条和形状
- HTML/CSS 绘画
原理
- 使用 HTML 元素作为基本图形单元
- 通过 CSS 控制样式和布局
- 利用 CSS3 特性实现复杂效果
Mermaid 图表
原理
- 使用声明式语法描述图表结构
- 自动计算布局和连接
- 支持多种图表类型
5. Unicode 字符画
原理
- 使用 Unicode 字符集创建图案
- 包含 emoji 和特殊符号
- 比 ASCII 有更丰富的表现力
绘画方式选择
在不同场景下选择合适的可视化方案时,需考虑以下几个维度:
【使用环境】浏览器适合 SVG 和 HTML/CSS,终端适合 ASCII 和 Unicode,文档系统适合 Mermaid,社交媒体适合 Unicode;
【功能需求】精确绘图选择 SVG,结构图表选择 Mermaid,交互动画选择 HTML/CSS,简单图案选择 ASCII/Unicode;
【性能考虑】高性能要求用 SVG,中等性能用 ASCII/Unicode,资源密集用 HTML/CSS;
【维护成本】低维护选 ASCII/Unicode,中等维护选 SVG 和 Mermaid,高维护选 HTML/CSS。
总的来说,目前用得比较多的还是 SVG 和 Html 方式。 大模型绘画实践指南
大语言模型的绘画能力虽然有限,但通过不同的方式可以实现多样的视觉表达。选择合适的绘画方式对于实现特定需求至关重要。未来,随着技术的发展,大语言模型的绘画能力还将进一步提升和扩展。
怎么写提示词?
清晰的表达即可,下面提供一个我常用的结构化模版
任务:帮我绘制一个【xxx】
技术:svg图片
要求:配色美观,有设计感、艺术感和高级感
作者:云中江树
模型:Claude 3.5 Sonnet
以绘制一个可爱小熊为例。
提示词:
任务:帮我绘制一个可爱的小熊
技术:svg图片
要求:配色美观,有设计感、艺术感和高级感
作者:云中江树
模型:Claude 3.5 Sonnet
生成效果图:
不同绘画方式对比
由于其他几种方法能绘制的图像有限,这里主要对比 SVG 方法和 Html,React 代码方法。
React 代码也属于前端代码,可以视为 Html 路线下的子路线。
目前总的来说, 三者的表现都还比较相近,从效果来说 SVG 最佳。
当前,大模型绘图的最佳方式还是 SVG 方式,推荐使用。
那么,这么多大模型,哪家大模型的 SVG 绘图能力最强呢?
国内外不同大模型对比
我们对比了国外最好的三个大模型:Claude、 Gemini、GPT-4o,国内四款口碑大模型:ChatGLM,豆包,通义,Kimi。效果如下图:
从图片中可以看到,Claude 的绘图能力遥遥领先其他模型,在配色,外形,神韵方面都表现出色。
而国内的智谱模型表现也很优秀,绘制出了神韵。这也符合我们日常使用的体感。
此外没想到,GPT-4o 的结果这么惨不忍睹,还没有国内的模型好....
那么大模型在不同的场景下绘图能力如何呢?
我们用当前最强的大模型 Claude 来测评,这也是目前绘图最强的大模型(测评时间,2024.10.24,程序员节)
Claude 绘图能力测评
给古诗配图,水墨风意境能很好的体现出来。
绘制物体,形状、颜色和质感都还不错,位置关系局部有些小瑕疵。
绘制场景,简单的场景现在能轻松处理了,蓝天白云沙滩这样简单的场景效果不错,复杂一些的场景现在还做不太好。
绘制动漫角色,形和神都有了,局部有些位置不协调。
画小动物,整体可以称得上不错,挺可爱的,尤其小猫。
画人物头像,人物特点表现的很明显,机械感还是比较重。
画人物,还行,比较粗糙,SVG 能画成这样已经很棒了。
风格变化
调整不同的风格描述,可以看到 Claude 可以精准的识别不同的风格。当然由于能力限制,现在的绘图效果没有那么理想。但是绘制简笔画真的挺好看的hh
使用参考图像生成图片
因为 Claude 可以上传图片,所以我们可以尝试上传参考图像让大模型参考绘图。
比如我们上传蔡徐坤老师打篮球的图片,可以得到下面的图片。
注意:为了避免潜在的争议和不当使用他人形象,Claude 会避免生成和真人相关的图片,所以我们提示词用的「剪影」一词。
生成的图片打篮球的神韵还是有的hh
与绘画 AI 模型相比
和专门用于绘画的 AI 模型相比效果肯定还是没法比的,但是我们这里还是做一下对比,看看差距多大。这里我们采用国内的即梦 AI 和 Claude 绘图对比。
简单,写意的图片大模型绘制的还是不错的,涉及到复杂的细节,构图,则还是使用专门的图片模型好。
结语
用大模型绘图听上去有点奇怪,绘图效果也没有专门的生图模型好看,为什么要用大模型绘图呢?
因为我想知道大模型现在能力到什么地步了,在文字上训练还能产生绘画能力真的不可思议,令我着迷。
并且我也想看到大模型更多的可能性,不论 AGI 有没有到来,一个不争的事实都是: AI 正在快速的进化,越来越多的能力涌现,本文是希望对其绘图能力的进行测评,探索AI当前的能力水平。
同时, 大模型生图的这种能力在效率场景下十分有用, 本文的所有图片,海报,均由 AI 生成。
关注「云中江树」公众号,关注LangGPT 社区,江树将在后续的文章中持续分享应用。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,
如果你有更多想法,欢迎评论区留言交流~