官方文档:https://www.coze.cn/docs/guides/vlm
简介
在12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。
当你传入图片时,视觉语言模型(VLM)可以理解图片里的视觉信息,并结合这些信息完成图片相关的任务,例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力,扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话,让智能体耳聪目明。
申请体验豆包视觉模型
前置准备: coze 专业版用户
第一步 火山方舟平台开通模型
1)登录火山方舟
2)创建推理接入点
3)填写基本信息
4)添加模型
5)点击确认接入
第二步 coze 使用 视觉模型 创建智能体
1)创建智能体
2)选择模型
3)发布
4)勾选 API 和 Chat SDK 并发布
第三步 链接申请 视觉模型 体验
链接:申请体验链接
填写完成后,提交即可
第四步 体验豆包视觉模型
开通完成后访问网址 https://www.coze.cn/open-platform/realtime/playground 即可体验。
官方体验视频(最后一个):https://vcn9zksseidl.feishu.cn/wiki/SX1DwC4exiCJvQkMj98cHl9enJe?fromScene=spaceOverview