场景介绍
基于豆包-视觉理解模型实现的具有视频通话功能的应用。它能够对摄像头传输的实时画面进行分析,精准理解画面中的关键信息,包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话,实现和大模型面对面的即时交流体验。
各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分
一 环境搭建
1.1 代码下载
火山应用实验室的这些项目 都在下面这个git 里面,下一次其他项目的代码都有了。
git clone https://github.com/volcengine/ai-app-lab.git
cd demohouse/video_analyser
1.2 python 虚拟环境安装及设置
请参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【2.2 配置代码环境】 部分关于虚拟环境的安装及设置
1.3 配置关键参数+ 启动服务
进入demohouse/video_analyser 目录 (注意,我们还在虚拟环境中: myenv)
1.3.1 后端参数
- 修改
backend/code/config.py
中配置,填入刚刚获取的API keys, endpoint id 和 APP ID和 Access Token
(各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分)
配置变量名 | 说明 |
---|---|
VLM_ENDPOINT | doubao-vision-pro 32k endpoint id |
LLM_ENDPOINT | doubao-pro 32k endpoint id |
TTS_APP_ID | 语音合成模型 APP ID |
TTS_ACCESS_TOKEN | 语音合成模型 Access Token |
ARK_API_KEY | 火山方舟 API Key |
修改前
词改后
- 修改
backend/run.sh
中配置,填入刚刚获取的API key
修改前
修改后
1.3.2 前端参数
- 修改
frontend/run.sh
中配置,填入刚刚获取的APP ID和 Access Token
配置变量名 | 说明 |
---|---|
ASR_APP_ID | 流式语音识别模型 APP ID流式语音识别模型 APP ID |
ASR_ACCESS_TOKEN | 流式语音识别模型 Access Token |
改前
改后
1.4 安装后端依赖
进入backend
cd demohouse/video_analyser/backend
poetry install
1.3.3 启动后端服务
在 demohouse/video_analyser/backend 目录,运行
bash run.sh
保持这个窗口,不要关闭
1.4 启动前端
新打开一个终端,进入frontend 目录,运行run.sh
cd demohouse/video_analyser/frontend
bash run.sh
保持这个窗口,不要关闭
二 体验