文档备案控制台登录立即注册

首页文章问答视频活动开发者计划镜像站

发布

豆包视觉理解模型正式登场：体验流程详解

火山方舟大模型向量数据库

官方文档：https://www.coze.cn/docs/guides/vlm

简介

在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。

当你传入图片时，视觉语言模型（VLM）可以理解图片里的视觉信息，并结合这些信息完成图片相关的任务，例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力，扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话，让智能体耳聪目明。

申请体验豆包视觉模型

前置准备: coze 专业版用户

第一步火山方舟平台开通模型

1）登录火山方舟

2）创建推理接入点

picture.image

3）填写基本信息

picture.image

4）添加模型

picture.image

picture.image

5）点击确认接入

picture.image

第二步 coze 使用视觉模型创建智能体

扣子网址：https://www.coze.cn/home

1）创建智能体

picture.image

picture.image

2）选择模型

picture.image

3）发布

picture.image

picture.image

4）勾选 API 和 Chat SDK 并发布

picture.image

picture.image

第三步链接申请视觉模型体验

链接：申请体验链接

填写完成后，提交即可

picture.image

picture.image

第四步体验豆包视觉模型

开通完成后访问网址 https://www.coze.cn/open-platform/realtime/playground 即可体验。

官方体验视频（最后一个）：https://vcn9zksseidl.feishu.cn/wiki/SX1DwC4exiCJvQkMj98cHl9enJe?fromScene=spaceOverview

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

在火山引擎云搜索服务上构建混合搜索的设计与实现

本次演讲将重点介绍字节跳动在混合搜索领域的探索，并探讨如何在多模态数据场景下进行海量数据搜索。

相关产品

推荐阅读

通过工具增强 LLM Agent 能力：veRL+ReTool 的完整实践指南

TRAE 国际版 Max 模式已上线，支持你更复杂的项目需求

一句话让AI帮你搞营销？火山引擎Data Agent说：这事儿可以的~

MLLM（五）| nano banana两种访问方式介绍

豆包 Seedream 4.0｜4K多模态一站式图像创作｜文生图&图像编辑双榜第一

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论