多模态（3）：实战 GPT-4o 视频理解 - 文章 - 开发者社区

最近，OpenAI 团队的 GPT-4o 模型，在多模态方面的能力有了大幅提升，这次我们就使用 GPT-4o 完成一个视频理解的实战。

环境准备 =======

安装 FFmpeg

进行视频处理，我们需要用到 FFmpeg 这款功能强大的开源多媒体处理工具。它主要用于处理音频、视频和其他多媒体文件，可以实现以下功能：

转码：将多媒体文件从一种格式转换为另一种格式，例如将视频从 MP4 转换为 AVI。
剪辑：从多媒体文件中提取片段或合并多个片段。
处理：调整视频的尺寸、比特率、帧率，或音频的采样率、声道数等。
添加效果：为视频添加滤镜、字幕、水印等。
流媒体：将多媒体文件实时传输到网络上。

首先我们来安装 FFmpeg 工具。我使用的是 Mac 电脑，可以直接通过 brew 来安装。如果同学们使用的是其它平台，也可以参考官网的教程进行安装，这里就不赘述了。

  
brew install ffmpeg

安装完成后，可以通过下面的命令进行验证：

  
ffmpeg -version

安装依赖库

除了 FFmpeg 之外，我们还需要安装 opencv-python 和 moviepy，它们是 Python 领域非常主流的计算机视觉库，具备强大的音视频处理能力 。

  
pip install --upgrade opencv-python moviepy

视频抽帧

因为 OpenAI 官方暂时还没有直接开放视频理解的 API，所以我们只能曲线救国，先对视频进行抽帧，提取出一组帧的图片，再批量发送给 GPT-4o 进行理解。

我利用大模型生成了一段 5秒的搞笑视频：

picture.image

对该视频进行抽帧，按照每1秒提取一帧，总共可以提取出5帧的内容。具体代码如下：

  
import base64  
import os  
from typing import List  
  
import cv2  
  
  
def extract_frames(video_path: str, interval: int = 1) -> List:  
    """  
    视频抽帧  
    :param video_path: 视频文件路径  
    :param interval: 采样率,即每N秒抽取一帧  
    :return: 抽取的视频帧列表  
    """  
    extracted_frames = []  
    file_name, _ = os.path.splitext(video_path)  
  
    video_capture = cv2.VideoCapture(video_path)  
    total_frame_count = int(video_capture.get(cv2.CAP_PROP_FRAME_COUNT))  
    frame_rate = video_capture.get(cv2.CAP_PROP_FPS)  
    frames_interval = int(frame_rate * interval)  
    current_frame = 0  
  
    # 循环遍历视频并以指定的采样率提取帧  
    while current_frame < total_frame_count - 1:  
        video_capture.set(cv2.CAP_PROP_POS_FRAMES, current_frame)  
        success, frame = video_capture.read()  
        if not success:  
            break  
        _, buffer = cv2.imencode(".jpg", frame)  
        extracted_frames.append(base64.b64encode(buffer).decode("utf-8"))  
        current_frame += frames_interval  
    video_capture.release()  
  
    print(f"视频抽帧完成！共抽取了 {len(extracted_frames)} 帧")  
    return extracted_frames

picture.image

视频理解 =======

抽帧完成后，我们就可以将这些图片批量发送给 GPT-4o，让其生成视频内容介绍。

代码如下：

  
import os  
from typing import List  
  
import dotenv  
from openai import OpenAI  
  
# 加载环境变量  
dotenv.load_dotenv()  
  
# 创建OpenAI客户端  
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"),  
                base_url=os.getenv("OPENAI_API_BASE")  
                )  
  
  
def introduction(frames: List) -> str:  
    """  
    生成视频介绍  
    :param frames: 视频帧列表  
    :return: 视频内容介绍  
    """  
  
    # 使用GPT-4o模型,生成视频介绍  
    response = client.chat.completions.create(  
        model='gpt-4o',  
        messages=[  
            {"role": "system", "content": "你是一位资深的内容编辑。请以Markdown格式，生成视频的介绍。"},  
            {"role": "user", "content": [  
                "下面是视频的图像帧",  
                *map(lambda x: {"type": "image_url",  
                                "image_url": {"url": f'data:image/jpg;base64,{x}', "detail": "low"}},  
                     frames)  
            ]},  
        ],  
        temperature=0,  
    )  
    return response.choices[0].message.content

执行代码，可以看到 GPT-4o 为我们生成了 Markdown 格式的内容：

  
# 视频介绍  
  
在这段富有喜剧色彩的视频中，乡村田野的宁静被一位尝试骑行水坑的年轻人打破。阳光明媚的一天，他戴着大帽子，骑着复古自行车，试图勇敢地穿越一条泥泞的小路。  
  
## 场景描绘  
  
- **骑自行车者的冒险**: 骑车者穿着淳朴的服装，头戴宽檐帽，给人一种漫游田园的印象。在他的自行车后座绑着一只体型小巧的家禽，为场景增添了趣味性。  
- **挑战与失误**: 视频的高潮部分呈现了骑车者试图跨越路面上的浅水坑。尽管动作充满信心，但他最终失去平衡，坠入水中，溅起大片水花，构成了幽默的结局。  
- **观众的反应**: 在画面的一侧，可以看到一群穿着传统服装的人们，他们以各种姿态观望骑自行车者的冒险，脸上似乎带着惊讶和喜悦。   
  
## 视频氛围  
  
整个场景在绿色的草地和清澈的蓝天背景中进行，表现出乡村生活的悠然宁静，同时以幽默的方式捕捉人们日常尝试中的滑稽瞬间。这段视频不仅让观众感受到幽默，也让人赞美大自然的美丽与朴实生活的简单乐趣。

可以看出，GPT-4o 基本 Get 到了视频内容的精髓。

小结 =====

本篇文章中，我们全面了解了 GPT-4o 的强大功能及其在多模态 AI 应用开发中的巨大潜力，并通过实际操作体验了如何利用 GPT-4o 进行视频理解。

GPT-4o 作为全新的端到端多模态模型，能够在极短的时间内处理多种模态输入和输出，使得人机交互更加自然和高效。尤其是在图片和音视频理解方面，GPT-4o 的表现令人印象深刻。

大模型在多模态方面能力的持续提升，将为 AI 应用的开发带来革命性的变化，一方面可以大幅提升用户体验；另一方面也可以加速促进 AI 应用在各行各业的广泛应用，并不断催生出更多创新的解决方案。