MacBook 跑通 :火山引擎 视频实时理解

最佳实践实时音视频大模型
场景介绍

基于豆包-视觉理解模型实现的具有视频通话功能的应用。它能够对摄像头传输的实时画面进行分析,精准理解画面中的关键信息,包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话,实现和大模型面对面的即时交流体验。

https://console.volcengine.com/ark/region:ark+cn-beijing/application/detail?id=bot-vlm-procode-preset

各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分

一 环境搭建

1.1 代码下载

火山应用实验室的这些项目 都在下面这个git 里面,下一次其他项目的代码都有了。

    git clone https://github.com/volcengine/ai-app-lab.git
    cd demohouse/video_analyser

1.2 python 虚拟环境安装及设置

请参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【2.2 配置代码环境】 部分关于虚拟环境的安装及设置

1.3 配置关键参数+ 启动服务

进入demohouse/video_analyser 目录 (注意,我们还在虚拟环境中: myenv)

picture.image

1.3.1 后端参数

  • 修改backend/code/config.py 中配置,填入刚刚获取的API keys, endpoint id 和 APP ID和 Access Token

(各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分)

配置变量名说明
VLM_ENDPOINTdoubao-vision-pro 32k endpoint id
LLM_ENDPOINTdoubao-pro 32k endpoint id
TTS_APP_ID语音合成模型 APP ID
TTS_ACCESS_TOKEN语音合成模型 Access Token
ARK_API_KEY火山方舟 API Key

修改前

picture.image

词改后

picture.image

  • 修改 backend/run.sh 中配置,填入刚刚获取的API key

修改前

picture.image

修改后

picture.image

1.3.2 前端参数

  • 修改 frontend/run.sh 中配置,填入刚刚获取的APP ID和 Access Token
配置变量名说明
ASR_APP_ID流式语音识别模型 APP ID流式语音识别模型 APP ID
ASR_ACCESS_TOKEN流式语音识别模型 Access Token

改前

picture.image

改后

picture.image

1.4 安装后端依赖

进入backend

cd demohouse/video_analyser/backend

poetry install

picture.image

1.3.3 启动后端服务

在 demohouse/video_analyser/backend 目录,运行

bash run.sh

picture.image

保持这个窗口,不要关闭

1.4 启动前端

新打开一个终端,进入frontend 目录,运行run.sh

  cd demohouse/video_analyser/frontend
   bash run.sh

picture.image

保持这个窗口,不要关闭

二 体验

访问 https://localhost:8080/

picture.image

关于茉卷

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论