OpenAI视频生成模型Sora
🚀 北京时间2月16日凌晨,OpenAI首个文本到视频生成模型Sora重磅发布,是继Pika、Meta、谷歌、Runway的之后又一视频生成领域重量级玩家登场 🎉
Sora 是由 OpenAI 开发的一个人工智能模型,它能够根据文本指令生成逼真和富有想象力的视频场景。这个模型的目标是训练能够帮助人们解决需要现实世界互动的问题的模型。Sora 能够生成 长达一分钟 的视频,同时 保持视觉质量和遵循用户的提示 。它能够理解用户在提示中所要求的内容以及这些内容在现实世界中的存在方式。
Sora 的一些生成示例包括:
中国龙年舞龙
一位时尚女性在充满温暖霓虹灯和动态城市标志的东京街头行走。
一群巨大的毛茸茸的猛犸象在雪地中行走,背景是雪覆盖的树木和雪山。
一部以30岁太空人为主角的电影预告片,背景是蓝色的天空和盐沙漠,采用电影风格拍摄。
无人机视角下的大苏尔加雷角海滩,海浪拍打着崎岖的悬崖。
一个3D动画场景,展示了一个短毛绒怪物跪在融化的红色蜡烛旁。
Sora 目前正在接受专家的评估,以识别潜在的风险和危害,并为创意专业人士提供反馈。OpenAI 正在与外部专家合作,以确保模型的安全性,并计划在未来的产品中部署时包含 C2PA 元数据。
Sora 的技术细节包括 :
- 它是一个扩散模型,通过逐步去除噪声来生成视频。
- 使用类似于 GPT 的变换器架构,能够处理不同时长、分辨率和宽高比的视觉数据。
- 视频和图像被表示为数据的小单元,类似于 GPT 中的 token。
- Sora 基于 DALL·E 和 GPT 的研究,使用 DALL·E 3 的重描述技术,为视觉训练数据生成高度描述性的字幕。
尽管 Sora 在生成视频方面取得了显著进展,但它仍然存在一些弱点,例如在模拟复杂场景的物理特性时可能会遇到困难,或者在处理涉及多个实体的场景时可能会出现问题。
吹蜡烛之前和吹蜡烛之后,火苗没有丝毫变化
OpenAI Sora资源汇总:
官网介绍:https://openai.com/sora
技术报告:https://openai.com/research/video-generation-models-as-world-simulators
Gemini 1.5:MoE、1M token、多模态
🤔 2月8日夜晚谷歌 Ge mini Ultra发布,这才还没几天,Gemini 1.5就来了,攒 足劲要和OpenAI一较高下。
Gemini 1.5的关键特点包括:
- 超长上下文处理能力 :Gemini 1.5 Pro能够处理高达1,000,000 token(即100万token)的文本,这是目前已知的最大上下文窗口,远超过之前的200K token(20万token)的极限。实验室测试中,它甚至能够处理高达10,000,000 token(1000万token)的文本。
- 多模态能力 :Gemini 1.5 Pro不仅处理文本,还能够处理音频和视频数据,显示出在多模态任务中的深度理解和推理能力。
Gemini 1.5 Pro能够分析长达数小时的视频内容,并在视频中找到特定的视觉元素
- 大海捞针能力 :在多模态海底捞针测试中,Gemini 1.5 Pro在处理大量数据时能够保持高准确率的检索完整性,例如在处理530,000 token文本时达到100%的完整性。
- MoE架构 :Gemini 1.5基于MoE(Mixture of Experts)架构,由多个小型“专家”神经网络组成,这些网络能够根据输入类型激活最相关的路径,提高了模型的效率和性能。
- 性能提升 :在综合性能测试中,Gemini 1.5 Pro在87%的基准测试上超越了1.0 Pro版本,与1.0 Ultra版本相比也表现出色。
- 上下文学习 :Gemini 1.5 Pro展示了卓越的上下文学习能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。
- 处理复杂任务 :模型能够处理长篇复杂文档、大型代码库,并在这些任务中展现出深入理解和问题解决能力。
- 稀有语言翻译 :Gemini 1.5 Pro在处理稀有语言翻译方面也取得了显著成就,例如在Kalamang语的翻译中,其性能超过了以往最好的模型和人类学习者。
这些特点共同使得Gemini 1.5成为一个强大的AI模型,能够在多种任务中提供高效、准确的输出,同时为未来的AI研究和应用开辟了新的可能性。
Gemini 1.5的发布标志着谷歌在AI领域的研究和工程创新迈出了重要一步,预示着大模型视野的进一步拓宽。接下来,业界期待的是与Gemini 1.5竞争的可能是OpenAI的GPT-5模型。
Gemini 1.5技术报告 https://storage.googleapis.com/deepmind-media/gemini/gemini\_v1\_5\_report.pdf
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。