统一多模态框架GPT4Video不仅能看懂视频也能生成视频（附视频demo） - 文章 - 开发者社区

当下，大多数多模态大模型都是能够在输入侧理解多模态内容，如图片、视频内容，缺乏进一步的生成多模态内容的能力。腾讯人工智能实验室与悉尼大学在十一月份发布了一项最新研究，提出了统一的多模态框架GPT4Video，它可以做到两项能力兼具，既能理解也能生成，填补了当前多模态大模型的这方面的空白。

感兴趣可以查看：

下面是来自论文的一些详细情况介绍和演示。

架构：

picture.image

视频编码阶段（Video Encoding stage） ：视频编码模块采用冻结的 ViT-L/14 模型来捕捉原始视频特征，而视频抽象模块则采用基于变换器的交叉注意层和两个新颖的可学习标记，旨在沿时间轴和空间轴浓缩信息。

LLM 推理（LLM reasoning） ：GPT4Video 的核心由一个冻结的 LLaMA 模型驱动，并通过 LoRA 进行有效微调。LLM 通过以视频为中心的自定义安全数据进行训练，使其能够理解视频并生成适当的视频提示（用下划线表示）。

视频生成（Video Generation） ：LLM 生成的提示随后被用作文本到视频模型库中模型的文本输入，以创建视频。在这项工作中，使用 ZeroScope 作为视频生成模型。

效果与总结：

picture.image

GPT4Video 具有以下优点：

它在视频理解和生成场景中都表现出令人印象深刻的能力。例如，在视频问题解答任务中，GPT4Video 比 Valley 高出 11.8%；在文本到视频生成任务中，GPT4Video 比 NExt-GPT 高出 2.3%。
GPT4Video 使 LLM/MLLM 具备视频生成能力，无需额外的训练参数，并能灵活地与各种模型对接，以执行视频生成任务。
它不仅能在输出端保持安全健康的对话，还能以端到端的方式在输入端保持安全健康的对话。

定性和定量实验证明，GPT4Video 有潜力成为一个有效、安全、类似人形机器人的视频助手，能够处理视频理解和生成场景。

Demo：