大家好,我是刘聪NLP。
昨天就刷到,美团LongCat又开源图像生成模型了,一共是3个模型,LongCat‑Image、LongCat‑Image‑Dev、LongCat‑Image‑Edit。
LongCat‑Image:文生图模型,最终版本
LongCat‑Image‑Dev:文生图模型,中期训练检查点,适合进行微调。
LongCat‑Image‑Edit:图生图模型,也就是图像编辑模型。
只能说最近美团在大模型上,真是猛猛发力了,8月31号开源LongCat模型之后一发不可收拾,紧跟着开源LongCat-Thinking推理模型、LongCat-Audio-Codec模型、LongCat-Omni全模态模型、还有LongCat-Video模型。
现在又来生图模型,这么看基本上是全了,只能说一个厨师,不看菜谱,看上兵法了,哈哈哈哈~
咱们老规矩,先看技术细节,再来看模型实测效果。
Paper:https://github.com/meituan-longcat/LongCat-Image/blob/main/assets/LongCat\_Image\_Technical\_Report.pdf
HF:https://huggingface.co/meituan-longcat/LongCat-Image
先说一下,LongCat‑Image的扩散模型部分参数为6B,跟前几天开源的阿里的Z-Image是一样大的,都是现在性价比极高的开源模型。
PS:感觉LongCat‑Image团队是没想到阿里会又有一个模型,因为对比实验里都没有。
LongCat‑Image的模型结构如下图所示,
- 扩散模型采用FLUX.1-dev的Transformer 架构,前几层使用双流注意力机制,后续层转为单流注意力机制,双流块与单流块的比例为1:2。
- VAE组件使用FLUX.1-dev的VAE组件,先进行8倍空间压缩再进行2x2 token合并,输入DiT模块。
- 文本编码器采用Qwen2.5VL-7B,将用户输入的提示词表示成连续文本向量,输入DiT模块。同时采用3D-MRoPE,第一维区分模态,后面两维区分图像或为本的位置信息。
LongCat在数据方面也做了不少工作,构造了12亿样本数据,覆盖了人物肖像、动植物、自然风景、城市景观、室内环境、物品、海报、图表类场景
数据整合的流程主要涉及4个步骤,
- 低质量清洗:包括相似度去重、低像素、低美学分和AIGC图片等过滤
- 元信息提取:对已有数据提取类别、风格、命名实体、OCR 文本、美学评分等元数据,提升图像描述的知识密度与语义准确性
- 多粒度描述生成:针对不同图片进行多粒度的描述内容生成,涉及实体级、短语级、构图级和摄影级。
- 数据分层采样:不同阶段采样的图像比不同,防止模型过早偏向简化视觉模式,以及提升生成质量与风格多样性。
合成数据主要来支持稀有概念和边界场景,比如提升文本渲染的字符集、字体、排版类型的覆盖。
整个模型训练流程涉及3个部分,
- 预训练:数据从256 px到512 px再到512-1024 px 渐进,bucket 采样适配任意比例
- 中期训练:用更严 pipeline(美学+质量模型+人工)筛选数百万高质量图,把分布拉向高保真、高美感子空间
- 后训练:SFT使用数十万真实高清图+人工审核合成图,严格控质量,RL采用DPO、GRPO。
图像编辑模型,在T2I架构上增加图像分支,数据则通过整合开源数据集、合成数据集、视频抽帧数据和网络交错语料四大来源,配合GPT-4o一对多指令重写,构建出覆盖大规模高质量编辑对。
整体测试效果如下:
下面进行一些实测,测试链接:https://longcat.chat/
不过有一说一,整体效果相比于Nano Banana还是有些距离的,不过胜在开源,尺寸小,可以轻量化部署。
漫画生成
Prompt:生成一张四宫格的宫崎骏风格漫画,每天下班时候公司的奶牛拼色流浪小狗等我投喂,欢快的摇着尾巴。今天他叼过来一根骨头,放在我准备的食盆边。
肖像照片
Prompt:护照用肖像照片,背景为纯白色。画面中是一位女孩,她穿着白色衬衫,表情严肃,扎着马尾辫,露出额头和耳朵。照片仅显示胸部以上部分,采用正面视角拍摄,确保面部特征清晰可见。整体风格简洁明了,符合护照照片的标准要求。
Prompt:一位清冷气质的年轻女子,身穿立领墨蓝色真丝旗袍,衣襟有精致暗纹刺绣,佩戴小巧珍珠耳钉;背景为斑驳红墙、青瓦屋檐与高大的梧桐树,阳光透过梧桐叶洒下细碎光斑。神情淡然疏离,带有民国初年文人式的静谧与哀愁。胶片摄影风格:35mm胶片质感,富士Superia 400色调、低饱和、柔和对比、细腻颗粒、轻微暗角、浅景深。
这张很真实有没有。
手写书法
Prompt:一幅竖排行书书法作品,书写于米白色、略带肌理的半生熟宣纸上。纸张自然微皱,触感温润柔和;墨色乌黑莹润,行书笔意洒脱,笔锋粗细变化灵动。文字依古法从右至左竖排书写,清晰可见两行诗句:“无人扶我青云志,我自踏雪至山巅。”左下角小字落款“聪”,纸面点缀多枚朱红方形篆刻印章,印泥色泽饱满、印文线条清晰。多张书法纸呈轻微重叠的错落摆放,背景隐约露出其他纸张的淡色字迹,营造出随性的创作氛围。光线为柔和自然光,均匀铺洒在纸面,凸显墨色的光泽与纸张的纹理褶皱,造梦师的诗意视觉风格,整体氛围雅致古朴
旅游海报
Prompt:以哈尔滨索菲亚大教堂为主体,搭配复古街景(老式路灯、欧式建筑屋顶),场景设定为晴天下浪漫的哈尔滨景观,风格参考复古报纸的印刷质感(添加网点纹理、做旧肌理),背景色调加纯白配色,构图采用竖版中心视角,细节补充:叠加中英文复古排版文资(如“Welcome to Haerbin”、“哈尔滨欢迎您”)文字风格为粗体复古字体,整体呈现怀旧又鲜艳的视觉效果
Prompt:写实摄影与手绘字体结合的励志海报,暖色调海边日落场景(天空呈粉橙渐变,海面泛着粼粼波光,远处有暗色礁石);画面中央是背部朝向的人物黑色剪影(轮廓以黄色手绘线条装饰)(人物为长发女生);覆盖于剪影及背景上的是白色粗犷手绘字体文字 “我们一起去海边看看”,字体周围点缀黄色线条、小圆圈等手绘装饰元素;整体风格治愈且富有力量感,平视视角捕捉黄昏海边的静谧与励志氛围。底部左边有一排很小的文字:“xiaoshizi”(无衬线体的字样),底部左边有一排很小的文字:“202510”(无衬线体的字样)
门店招牌
Prompt:以长方形的铜质牌匾,上面排列“狴犴摄影俱乐部”字样,下方平行排列“南京山海经摄影基地”字样,中间是佳能相机搭配超长焦镜头的图案,字体和图案皆为有雕刻效果的为凹陷模式,字体为红色楷体,相机图案为简洁的写意效果,图案是黑色
Prompt:画面展示一条独具特色的美食街道,街道整洁干净。正前方有三家店铺,门口摆放着各种绿植,增添了生机。第一家店铺的招牌上写着“簋街冰煮羊”,中间店铺悬挂着“东川莜面”的牌子,另一家店铺则挂着“喰神面条馆”的牌子。整体采用真实摄影风格,细节清晰,色彩自然,展现出街道的独特魅力和店铺的吸引力。
LongCat‑Image真是训练了不是少生僻字,中文文字渲染上面真的很棒。
Logo设计
Prompt:设计一个“翕和集”的自然科普品牌logo,强调艺术审美和大众辨识度。logo应融合自然元素,如树叶、山脉或水流,采用简洁而富有创意的设计风格。色彩选择应自然柔和,确保在不同背景下都能清晰辨识。整体设计需具备现代感和艺术性,传达出品牌的自然科普主题。
知识解析
Prompt:生成一张简易的说明图,图片中对海棠花、桃花、樱花三种不同的花进行图文的说明备注,说明图的标题为“如何区分海棠花、桃花、樱花?”图片要求尽可能的生动,文字简洁明了
图像多轮编辑
在图像编辑上,遵循的也很棒,可以逐步针对性修改。文生图考察模型创造力,图生图考察模型指令遵循和理解能力,LongCat-Image-Edit这方面还是很不错了,现在市面上轻量级编辑模型还没有。
最后, 其实见过Nano Banana Pro强大的我们,
可能对于这些小模型效果可能已经无感了,
但也不要低估这种6B级小模型的意义,
参数不算极端、成本也可控,却能做出稳定、上限不错、可微调、可本地化部署的效果,
这些小模型让生成式AI的门槛持续下降,让 AI 的未来变得更加开放、更具可能性
这在一年前也是很难想象的。
不过有一说一,Nano Banana Pro还是太能打了呀,
国内继续加油吧~
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
