文档备案控制台登录立即注册

首页文章问答视频活动开发者计划镜像站

发布

AI“语速”知多少？基于云拨测的国产大模型使用体验测评！

火山引擎开发者社区

云原生可观测

点击上方👆蓝字关注我们！

picture.image

本文介绍了使用火山引擎云拨测产品对大预言模型进行“语速”测评的结果和过程，主要内容分为以下 4 部分：

影响 AI “语速”的指标；2. 对主流大模型单轮对话 AI “语速”测评结果；3. 如何使用云拨测监测 AI “语速”；4. 火山引擎云拨测介绍。

Tips：文内含有奖活动，欢迎「参与活动」赢得奖品～

当今时代，LLM（Large Language Model）大语言模型技术不断推动着生成式 AI（Generative Artificial Intelligence）飞速发展，不论是在智能对话系统、虚拟助手、翻译领域，还是在个性化推荐、营销领域，AI都展现出了惊人的效果和巨大的潜力。

随着厂商不断增多，针对大模型的测评也层出不穷，有测评准确性的、有让它们参加高考的、还有让它们写新闻的。今天的测评和你之前见过的都不一样，我们会使用火山引擎云拨测产品来测一测 AI “语速”。

影响 AI “语速”的指标指标

测评开始之前，我们需要确定控制 AI “语速”的因素。大语言模型的生成过程是基于已生成的部分逐步预测下一个词汇，为了适应大模型的工作特性，应用层面通常采用 Server-Sent Events（SSE）来保证模型输出的词句快速传递到用户侧，让用户感受到 AI 流畅的“语速”。

SSE 是一种基于 HTTP 协议的实时数据推送技术，通过维持一个 HTTP 的长连接，SSE 实现了服务器主动向客户端推送更新，增强了传统 HTTP 应用 Request - Response 通信模型的实时性，使客户端能够直接接收服务端的最新数据，无需轮询。

这个过程中，有 3 个指标直接影响用户体验：

首包时延 ：用户发送请求后收到 Reponse Header 第一个字节的耗时，即 AI 对用户的问题是否“立刻作答”；
接收时间 ：通常用来衡量网络传输速度，但使用 SSE 协议传输的大模型应用是一边处理，一边回复，因此接收时间也能衡量大模型的推理速度，即AI回答用户问题是否“吞吞吐吐”；
整体时延 ：AI 逐字词回复时，首包时延、接收时间、输出给用户的累计耗时，即 AI 回答用户问题是否“快且准”。

picture.image

这 3 个指标正是我们使用火山引擎云拨测来测评 AI “语速”的关键。

主流大模型单轮对话 AI “语速”测评

此次测评选取了 4 款国产大模型，为求准确，都选取了支持长文本的模型对比。火山引擎云拨测通过大模型服务的单轮对话 OpenAPI 执行 HTTP 拨测任务，通过对大模型提出问题，围绕 首包时延 、 接收时间 、 整体时延 3 个重要观测指标进行测评。

测试结果如下：

首包时延 ：模型 D 和模型 B 表现较好，其次是模型 C、模型 A

picture.image

接收时间 ：表现排名依次为模型 C、模型 D、模型 A、模型 B

picture.image

在测评接收时间时，我们有一个重要发现！模型 C 接收数据耗时非常短，不到 1ms，因此我们推测模型 C 使用了某种缓存机制，同样的问题不会重复经过 AI 推理，而是直接返回缓存的答案，感兴趣的小伙伴也可以试试自己测评，测评教程可见后文。

整体时延 ：模型 C 和模型 D 表现较好，其次是模型 B、模型 A

picture.image

测评总结

综合来看，只看整体时延，虽然模型 C 的表现最好，但是考虑到它可能应用某种缓存机制， 从真实推理性能考虑，模型 D 表现最佳 。模型 A 的大模型服务无论从推理性能还是网络性能都位于末流。

当然本次测评只从“语速”层面出发，属于大模型使用体验中的一部分，更多关于大模型的语义理解、知识库、回答合理性等复杂体验组合在一起才能组成完整的 AI 使用体验。

如果好奇此次测评选取的大模型都是哪些，你可以免费试用火山引擎云拨测产品，成为大模型的测评官，还能赢得价值 129-199 的奖品哦，活动详情见文末。

如何使用云拨测监测 AI “语速”

火山引擎云拨测可以模拟全球用户在不同场景下的访问请求，周期性的监测用户终端到服务端的服务可用性、应用的稳定性和网络质量，支持 HTTP，TCP/UDP，DNS 等多种网络协议。

对话类应用广泛使用的 SSE 协议本质上是 HTTP 请求，因此可以通过云拨测的 HTTP 协议拨测来分析其性能。通过火山引擎云拨测的 即时拨测 功能，可以探测使用 SSE 协议的大模型对话接口，具体教程如下。

首先进入即时拨测创建页面，选择单协议->HTTP协议

picture.image

在高级配置中，可以填写所需的 HTTP 方法和 Request Body 内容，请求头中，可以填写必要的鉴权信息

picture.image

在任务目标中，填写探测 URL，断言可以使用默认的配置

picture.image

最后选择所需要发起探测的区域用来模拟真实用户所在网络环境，如下图

picture.image

最后点击运行任务即可发起探测

任务运行后，可以在任务分析页面看到当前探测的情况，包含了 HTTP 协议相关的丰富的统计数据。

picture.image

通过详情页面，还可以进一步了解接口的返回内容详情。

picture.image

这里我们可以清楚看到接口使用了 SSE 推送数据，消息格式也是符合标准的。看完教程相信你对于成为“AI 测评官”更有信心了，快看文末活动详情来参与活动吧~

火山引擎云拨测

火山引擎云拨测是依托于字节跳动 19 亿用户业务下的 数字体验监控最佳实践 ，以及基于全球分布的基础设施优势而打造的一款拨测产品。

picture.image

通过分布在全球各地的监测节点来模拟用户访问云服务，火山引擎云拨测实现端到端的网络可用性、稳定性以及用户体验的可观测。帮助使用者快速发现、定位和诊断网络服务问题，提升用户体验。火山引擎云拨测拥有以下优势：

覆盖全球的节点资源 ：云拨测支持全球范围的网络监测。1200+ 监测节点覆盖了全球范围的不同城市、不同运营商。同时支持私有监测节点的部署。
开箱即用，低成本接入 ：云拨测提供可视化的控制台。无需研发介入，对业务代码、技术架构无侵入。
多维分析诊断 ：交互式的图表，带来灵活的多维度对比下专业的分析诊断体验。
智能报警 ：基于多维度、多指标、智能基线进行实时异常检测，支持多渠道通知您的团队，降低MTTR。
最佳实践 ：云拨测已帮助火山引擎多个云服务、飞书等技术团队监控网络质量，定位网络故障，协助提高服务可靠性，成为网络监控的最佳实践。

AI 测评官活动

扫码添加小助手，获取云拨测试用链接，使用云拨测完成大语言模型拨测即可获得一等奖，如果猜出了文中提到的模型 C，还能额外获得特等奖，奖品有限，先到先得哦~

picture.image

奖品设置

一等奖

多功能背包

picture.image

picture.image

特等奖

磁吸充电宝

picture.image

picture.image

同时，目前火山引擎云拨测优惠活动正在进行中，不仅可以 免费试用 ，还能享受 买多少送多少、资源包限时 5 折 的优惠！点击【

阅读原文 】，免费申请试用~

0

0

0

0

关于作者

火山引擎开发者社区

关于作者

火山引擎开发者社区

文章

0

获赞

0

收藏

0

相关资源

云原生数据库 veDB 核心技术剖析与展望

veDB 是一款分布式数据库，采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理，并对未来进行展望。

相关产品

推荐阅读

「SOLO 已就位」活动开启！SOLO 延长限免资格等你来拿

小团队如何笑迎巨头的申请驳回，成功登陆对方的大平台

SpringBoot4 新特性：彻底消灭NullPointerException

开源项目上线前必看：5步搞定免费WAF，拒绝被攻击躺平

SOLO Coder 实践｜给开源云盘 Cloudreve 加个 AI 对话功能

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论