原生GPT-4o生图OpenAI官方透露了哪些信息?

大模型向量数据库机器学习
1. 引言

小伙伴们好,我是微信公众号<小窗幽记机器学习>的小编用GPT4o的小男孩。OpenAI于2025年3月25日发布了GPT-4o(GPT-4o Native Image Generation) 系统卡的增补内容,重点介绍了其全新的原生图像生成方法——4o图像生成。这项技术被认为是OpenAI早期DALL·E系列模型的重大进步,尤其在生成照片级真实感图像、处理图像输入进行转换、以及精确遵循指令(包括在图像中融入文本)等方面表现出色。更重要的是,由于4o图像生成原生嵌入在全能的GPT-4o模型架构深处,它能够利用其全面的知识以细致入微且富有表现力的方式实现这些功能,创造出既美观又实用的图像。本报告旨在对4o图像生成的技术特点、与早期模型的区别以及其安全措施进行详细解读。可惜的是,纵观全文,技术细节过少,只能网友自行脑补,Big sad~

以下是一个示例,让GPT4o设计一款微信公众号<小窗幽记机器学习>的周边产品:

picture.image

原文出处:

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native\_Image\_Generation\_System\_Card.pdf

更多大模型相关,欢迎关注微信公众号《小窗幽记机器学习》:

2. 技术特性与创新

4o图像生成作为一项新技术,相较于之前的图像生成模型展现出显著的创新和增强的能力。其核心的技术特性包括:

  • 图像到图像的转换 (Image-to-Image Transformation) :这项能力允许4o图像生成 将一个或多个图像作为输入,并生成相关或修改后的图像 。这为图像编辑、风格迁移等应用场景提供了新的可能性。
  • 照片级真实感 (Photorealism) :4o图像生成具备 先进的照片级真实感能力,使其输出在某些情况下可能具有照片的外观 。这意味着生成的图像在细节和视觉效果上更加逼真。
  • 指令遵循 (Instruction Following) :4o图像生成能够 遵循详细的指令,并可靠地渲染文本和教学图表 。这表明模型在理解和执行复杂用户意图方面取得了显著进展。

从技术层面来看,最关键的创新在于其模型架构和集成方式:

  • 自回归模型 (Autoregressive Model) 与作为扩散模型运行的DALL·E不同,4o图像生成是一种自回归模型 。自回归模型通常通过逐步预测序列中的下一个元素来生成数据,在图像生成中,这可能意味着模型以某种方式逐个“token”或“部分”地生成图像。
  • 原生嵌入 (Natively Embedded within ChatGPT) :4o图像生成并非一个独立的模型,而是 深度集成在GPT-4o这个统一的、全能的模型架构中 。这种原生嵌入使得4o图像生成可以 直接利用GPT-4o模型所拥有的所有知识和理解能力 。这种深度的集成使得图像生成能够以更加 微妙和富有表现力 的方式进行。
3. 与DALL·E的技术区别

如前所述,4o图像生成与DALL·E系列模型在技术上存在根本的区别:

  • 模型架构 :
  • DALL·E 使用的是扩散模型 ,通过逐步对噪声图像进行去噪来生成图像。
  • 4o 图像生成采用自回归模型 ,可能通过逐步预测图像的组成部分来完成生成。
  • 集成方式 :
  • DALL·E可能作为一个相对独立的模型运行,并通过一定的接口与ChatGPT等系统进行交互。
  • 4o 图像生成是原生嵌入在 ChatGPT 的架构中 ,能够更直接地利用GPT-4o的全部能力。

这种差异使得4o图像生成在图像转换、照片级真实感和指令遵循方面展现出更强的能力。

4. 主要安全挑战与应对

4o图像生成的新能力也带来了新的安全风险。OpenAI针对这些风险采取了多层次的安全措施:

  • 聊天模型拒绝 (Chat model refusals) :ChatGPT的主要聊天模型作为第一道防线,可以拒绝触发违反政策的图像生成请求。

  • 提示词屏蔽 (Prompt blocking) :在调用图像生成工具后,如果提示词被分类器标记为违反政策,系统会阻止图像生成。

  • 输出屏蔽 (Output blocking) :图像生成后,系统会使用包括CSAM分类器和安全推理模型在内的多种控制手段来阻止违规内容的输出。

OpenAI还通过内部测试、外部人工红队测试、自动化红队测试以及使用真实世界场景的离线测试来评估其安全措施的有效性。

5. 特定风险领域的关注与缓解

OpenAI在4o图像生成中特别关注并采取措施缓解以下特定风险领域:

  • 儿童安全 (Child Safety) :OpenAI高度重视儿童安全,采取了包括符合Thorn建议的红队测试、对所有输入和输出进行CSAM扫描等措施。针对儿童安全的具体策略包括 在发布时不允许编辑上传的儿童照片 ,以及加强对CSAM的防护。OpenAI还使用了基于Sora的 照片级人物分类器 来分析上传的图像是否包含未成年人。
  • 艺术家风格 (Artist Styles) :为了回应创意社区的 concerns,4o图像生成采取了保守策略, 会拒绝生成模仿在世艺术家风格的图像
  • 公众人物 (Public Figures) :在发布时,4o图像生成 不会阻止生成成年公众人物的图像 ,但会实施与编辑公众人物照片类似的保护措施,例如阻止生成未成年公众人物的照片以及违反相关政策的内容。公众人物可以选择不被生成。
  • 偏见 (B ia s ) :评估显示,4o图像生成在某些代表性偏见方面优于DALL·E 3,但在人口统计学代表性方面仍面临挑战。OpenAI计划继续改进,通过在后训练过程中引入更多样化的示例来优化模型输出。评估指标包括类别分布、异构输出频率和偏度。尽管在性别、种族和肤色方面有所改进,但模型输出在性别上仍更偏向男性,且在种族和肤色上更倾向于白色和较浅肤色。
  • 其他风险领域 (Other Risk Areas) :OpenAI还对 色情内容、暴力、辱骂或仇恨言论以及非法活动指导 等风险领域进行了评估,并制定了相应的模型政策和安全措施。
6. 来源追踪 (Provenance)

为了提高透明度和可信度,4o图像生成将包含以下来源追踪工具:

  • 所有资产都将包含C2PA元数据 ,这是一个可验证来源的行业标准。
  • OpenAI将使用 内部工具来评估特定图像是否由其产品创建

OpenAI认识到来源追踪并非一蹴而就,并致力于与行业和社会各界合作,共同改进来源生态系统。

7. 总结与展望

GPT-4o Native Image Generation代表了OpenAI在图像生成技术上的重大进步。其 自回归的模型架构和与GPT-4o的深度集成 赋予了它强大的图像处理和理解能力。通过图像到图像的转换、照片级真实感和精确的指令遵循,4o图像生成展现了广泛的应用潜力。

同时,OpenAI也高度重视这项技术带来的新安全风险,并采取了多层次的安全措施进行应对。在儿童安全、艺术家风格、公众人物和偏见等特定风险领域,OpenAI也制定了具体的策略和进行了细致的评估。

OpenAI承诺将继续以严谨和迭代的方式推进AI系统的安全。随着对4o图像生成实际使用情况的进一步了解,OpenAI将持续评估和调整其政策,并不断加强其安全工作。

更多大模型相关(AI入门、前沿技术解读及其实战等),欢迎关注微信公众号《小窗幽记机器学习》:

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论