MacBook 跑通：火山引擎视频实时理解

场景介绍

基于豆包-视觉理解模型实现的具有视频通话功能的应用。它能够对摄像头传输的实时画面进行分析，精准理解画面中的关键信息，包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话，实现和大模型面对面的即时交流体验。

https://console.volcengine.com/ark/region:ark+cn-beijing/application/detail?id=bot-vlm-procode-preset

各种 KEY 的获取参考 MacBook 跑通：火山文生视频+自动剪辑方案中的【一开通服务】部分

一环境搭建

1.1 代码下载

火山应用实验室的这些项目都在下面这个git 里面，下一次其他项目的代码都有了。

    git clone https://github.com/volcengine/ai-app-lab.git
    cd demohouse/video_analyser

1.2 python 虚拟环境安装及设置

请参考 MacBook 跑通：火山文生视频+自动剪辑方案中的【2.2 配置代码环境】部分关于虚拟环境的安装及设置

1.3 配置关键参数+ 启动服务

进入demohouse/video_analyser 目录（注意，我们还在虚拟环境中： myenv）

picture.image

1.3.1 后端参数

修改backend/code/config.py 中配置，填入刚刚获取的API keys， endpoint id 和 APP ID和 Access Token

（各种 KEY 的获取参考 MacBook 跑通：火山文生视频+自动剪辑方案中的【一开通服务】部分）

配置变量名	说明
VLM_ENDPOINT	doubao-vision-pro 32k endpoint id
LLM_ENDPOINT	doubao-pro 32k endpoint id
TTS_APP_ID	语音合成模型 APP ID
TTS_ACCESS_TOKEN	语音合成模型 Access Token
ARK_API_KEY	火山方舟 API Key

修改前

picture.image

词改后

picture.image

修改 backend/run.sh 中配置，填入刚刚获取的API key

修改前

picture.image

修改后

picture.image

1.3.2 前端参数

修改 frontend/run.sh 中配置，填入刚刚获取的APP ID和 Access Token

配置变量名	说明
ASR_APP_ID	流式语音识别模型 APP ID流式语音识别模型 APP ID
ASR_ACCESS_TOKEN	流式语音识别模型 Access Token

改前

picture.image

改后

picture.image

1.4 安装后端依赖

进入backend

cd demohouse/video_analyser/backend

poetry install

picture.image

1.3.3 启动后端服务

在 demohouse/video_analyser/backend 目录，运行

bash run.sh

picture.image

保持这个窗口，不要关闭

1.4 启动前端

新打开一个终端，进入frontend 目录，运行run.sh

  cd demohouse/video_analyser/frontend
   bash run.sh

picture.image

保持这个窗口，不要关闭

二体验

访问 https://localhost:8080/

picture.image

关于茉卷

MacBook 跑通 ：火山引擎 视频实时理解

1.1 代码下载

1.2 python 虚拟环境安装及设置

1.3 配置关键参数+ 启动服务

1.3.1 后端参数

1.3.2 前端参数

1.3.3 启动后端服务

1.4 启动前端