GPT-4o技术大揭秘：极致响应的真·多模态！ - 文章 - 开发者社区

GPT-4o 发布了

！但

这次GPT-4o带来的是对易用性体验的颠覆。在演示中让人印象最深刻的是 GPT-4o的快如闪电极致响应 ，那么GPT-4o是如何做到能毫无延迟的反馈对话？

GPT-4o特点：

📥 输入：文本、文本+图像、文本+音频、文本+视频、音频（基于示例） 📤 输出：图像、图像+文本、文本、音频（基于示例） 🌐 在 MMLU 上达到 88.7% 的准确率；在 HumanEval 上达到 90.2% 的准确率 🎧 对西欧语言的转录，词错率（WER）低于 5% 🖼️ 在 MMU 上达到 69.1% 的准确率；在 DocVQA 上达到 92.8% 的准确率 ⚡ 比 GPT-4 Turbo 便宜高达 50%（可能由于标记化改进），并且速度快 2 倍 🎤 接近实时的音频，平均延迟为 320 毫秒，与人类对话类似 🔡 新的标记器，拥有 200k 词汇量（之前为 100k 词汇量），在 20 种语言中所需的标记数量减少了 1.1 倍至 4.4 倍。


          
https://openai.com/index/hello-gpt-4o/
          
https://blog.samaltman.com/

极致响应的真·多模态

GPT-4o它不是带有语音或图像附件的文本模型。它是一种原生的多模式令牌输入、多模式令牌输出模型（ natively multimodal token in, multimodal token ）

picture.image

https://twitter.com/willdepue/status/1790078289023062255

GPT-4o极致响应体验源自于它为多模态统一编码，是一个最真·多模态。

传统语音AI助手 三阶段流程，需要语音转文本-问答-文本转语音（语音~~文本-问答-文本~~语音）这样的流程管线：

语音识别或“ASR”：音频 -> 文本1，可以想到Whisper；
规划接下来说什么的LLM：文本1 -> 文本2；
语音合成或“TTS”：文本2 -> 音频，可以想到ElevenLabs或VALL-E。

picture.image

GPT-4o中如果可以直接做到语音-问答-语音，一步到位，大大缩短了反应时间 。这并不像让这三个神经网络中的每一个都变得更快，依次进行那么简单。解决实时对话的问题需要重新思考整个堆栈，尽可能地重叠每个组件，并学习如何在实时进行干预。或者更好的方法是—— 只有一个神经网络将音频映射到音频。端到端的方法总是胜出的 。

https://twitter.com/DrJimFan/status/1789695374963491139

真·多模态如何实现？

从技术上讲，OpenAI已经找到了一种方法， 可以直接将音频映射为第一类模态 ，这需要一些关于标记化和架构的新研究，但总体上它是一个数据和系统优化问题。OpenA官方博客称它只需要图像、文本和音频，使视频原生模型高效的正确方法是在 边缘设备上共同开发流媒体编解码器
高质量数据至少可以来自以下两个来源：

YouTube、播客、电视剧、电影等自然发生的对话 。Whisper可以被训练来识别对话中的说话者轮流发言或分离重叠的演讲以进行自动注释。
合成数据 。使用最强大的模型运行缓慢的三阶段流水线：speech1->text1 (ASR)，text1->text2 (LLM)，text2->speech2 (TTS)。中间的LLM可以决定何时停止，也可以模拟如何从中断中恢复。它可以输出额外的“思维痕迹”，这些痕迹没有被口头表达出来，以帮助生成更好的回复。

GPT-4o直接从speech1->speech2进行蒸馏 ，可选地基于三阶段数据的辅助损失函数。蒸馏后，这些行为现在被嵌入到模型中，而不需要发出中间文本。
在系统方面， 如果每个视频帧都被解压缩成RGB图像，延迟将不会满足实时阈值。OpenAI可能已经开发了自己的神经网络优先级、流式视频编解码器，以令牌的形式传输运动增量。通信协议和神经网络推理必须共同优化。例如，可以在边缘设备上运行一个小型且节能的神经网络，如果视频有趣，则决定传输更多令牌，否则传输较少。
Jim Fan大佬也推测 GPT-4o很可能是GPT-5的一个早期checkpoint ，还没有完成训练？

picture.image

https://twitter.com/DrJimFan/status/1790089671365767313

GPT-4o彩蛋

GPT-4o最长中文词表（200k）获取：longest_chinese_tokens_gpt4o.py

picture.image


        
            

          https://gist.github.com/ctlllll/4451e94f3b2ca415515f3ee369c8c374