MacBook 跑通 :火山引擎 视频实时理解

最佳实践实时音视频大模型
场景介绍

基于豆包-视觉理解模型实现的具有视频通话功能的应用。它能够对摄像头传输的实时画面进行分析,精准理解画面中的关键信息,包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话,实现和大模型面对面的即时交流体验。

https://console.volcengine.com/ark/region:ark+cn-beijing/application/detail?id=bot-vlm-procode-preset

各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分

一 环境搭建

1.1 代码下载

火山应用实验室的这些项目 都在下面这个git 里面,下一次其他项目的代码都有了。

    git clone https://github.com/volcengine/ai-app-lab.git
    cd demohouse/video_analyser

1.2 python 虚拟环境安装及设置

请参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【2.2 配置代码环境】 部分关于虚拟环境的安装及设置

1.3 配置关键参数+ 启动服务

进入demohouse/video_analyser 目录 (注意,我们还在虚拟环境中: myenv)

picture.image

1.3.1 后端参数

  • 修改backend/code/config.py 中配置,填入刚刚获取的API keys, endpoint id 和 APP ID和 Access Token

(各种 KEY 的获取 参考 MacBook 跑通: 火山文生视频+自动剪辑方案 中的 【一 开通服务】 部分)

配置变量名说明
VLM_ENDPOINTdoubao-vision-pro 32k endpoint id
LLM_ENDPOINTdoubao-pro 32k endpoint id
TTS_APP_ID语音合成模型 APP ID
TTS_ACCESS_TOKEN语音合成模型 Access Token
ARK_API_KEY火山方舟 API Key

修改前

picture.image

词改后

picture.image

  • 修改 backend/run.sh 中配置,填入刚刚获取的API key

修改前

picture.image

修改后

picture.image

1.3.2 前端参数

  • 修改 frontend/run.sh 中配置,填入刚刚获取的APP ID和 Access Token
配置变量名说明
ASR_APP_ID流式语音识别模型 APP ID流式语音识别模型 APP ID
ASR_ACCESS_TOKEN流式语音识别模型 Access Token

改前

picture.image

改后

picture.image

1.4 安装后端依赖

进入backend

cd demohouse/video_analyser/backend

poetry install

picture.image

1.3.3 启动后端服务

在 demohouse/video_analyser/backend 目录,运行

bash run.sh

picture.image

保持这个窗口,不要关闭

1.4 启动前端

新打开一个终端,进入frontend 目录,运行run.sh

  cd demohouse/video_analyser/frontend
   bash run.sh

picture.image

保持这个窗口,不要关闭

二 体验

访问 https://localhost:8080/

picture.image

关于茉卷

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论