AI“语速”知多少?基于云拨测的国产大模型使用体验测评!

云原生可观测

点击上方👆蓝字关注我们!

picture.image

本文介绍了使用火山引擎云拨测产品对大预言模型进行“语速”测评的结果和过程,主要内容分为以下 4 部分:

  1. 影响 AI “语速”的指标;2. 对主流大模型单轮对话 AI “语速”测评结果;3. 如何使用云拨测监测 AI “语速”;4. 火山引擎云拨测介绍。

Tips:文内含有奖活动,欢迎「 参与活动 」赢得奖品~

当今时代,LLM(Large Language Model)大语言模型技术不断推动着生成式 AI(Generative Artificial Intelligence)飞速发展,不论是在智能对话系统、虚拟助手、翻译领域,还是在个性化推荐、营销领域,AI都展现出了惊人的效果和巨大的潜力。

随着厂商不断增多,针对大模型的测评也层出不穷,有测评准确性的、有让它们参加高考的、还有让它们写新闻的。今天的测评和你之前见过的都不一样,我们会使用火山引擎云拨测产品来测一测 AI “语速”。

影响 AI “语速”的指标指标

测评开始之前,我们需要确定控制 AI “语速”的因素。 大语言模型的生成过程是基于已生成的部分逐步预测下一个词汇,为了适应大模型的工作特性,应用层面通常采用 Server-Sent Events(SSE)来保证模型输出的词句快速传递到用户侧,让用户感受到 AI 流畅的“语速”。

SSE 是一种基于 HTTP 协议的实时数据推送技术,通过维持一个 HTTP 的长连接,SSE 实现了服务器主动向客户端推送更新,增强了传统 HTTP 应用 Request - Response 通信模型的实时性,使客户端能够直接接收服务端的最新数据,无需轮询。

这个过程中,有 3 个指标直接影响用户体验:

  1. 首包时延 :用户发送请求后收到 Reponse Header 第一个字节的耗时,即 AI 对用户的问题是否“立刻作答”;
  2. 接收时间 :通常用来衡量网络传输速度,但使用 SSE 协议传输的大模型应用是一边处理,一边回复,因此接收时间也能衡量大模型的推理速度,即AI回答用户问题是否“吞吞吐吐”;
  3. 整体时延 :AI 逐字词回复时,首包时延、接收时间、输出给用户的累计耗时,即 AI 回答用户问题是否“快且准”。

picture.image

这 3 个指标正是我们使用火山引擎云拨测来测评 AI “语速”的关键。

主流大模型单轮对话 AI “语速”测评

此次测评选取了 4 款国产大模型,为求准确,都选取了支持长文本的模型对比。火山引擎云拨测通过大模型服务的单轮对话 OpenAPI 执行 HTTP 拨测任务,通过对大模型提出问题,围绕 首包时延接收时间整体时延 3 个重要观测指标进行测评。

测试结果如下:

  • 首包时延 :模型 D 和模型 B 表现较好,其次是模型 C、模型 A

picture.image

  • 接收时间 :表现排名依次为模型 C、模型 D、模型 A、模型 B

picture.image

在测评接收时间时,我们有一个重要发现!模型 C 接收数据耗时非常短,不到 1ms,因此我们推测模型 C 使用了某种缓存机制,同样的问题不会重复经过 AI 推理,而是直接返回缓存的答案,感兴趣的小伙伴也可以试试自己测评,测评教程可见后文。

  • 整体时延 :模型 C 和模型 D 表现较好,其次是模型 B、模型 A

picture.image

测评总结

综合来看,只看整体时延,虽然模型 C 的表现最好,但是考虑到它可能应用某种缓存机制, 从真实推理性能考虑,模型 D 表现最佳 。模型 A 的大模型服务无论从推理性能还是网络性能都位于末流。

当然本次测评只从“语速”层面出发,属于大模型使用体验中的一部分,更多关于大模型的语义理解、知识库、回答合理性等复杂体验组合在一起才能组成完整的 AI 使用体验。

如果好奇此次测评选取的大模型都是哪些,你可以免费试用火山引擎云拨测产品,成为大模型的测评官,还能赢得价值 129-199 的奖品哦,活动详情见文末。

如何使用云拨测监测 AI “语速”

火山引擎云拨测可以模拟全球用户在不同场景下的访问请求,周期性的监测用户终端到服务端的服务可用性、应用的稳定性和网络质量,支持 HTTP,TCP/UDP,DNS 等多种网络协议。

对话类应用广泛使用的 SSE 协议本质上是 HTTP 请求,因此可以通过云拨测的 HTTP 协议拨测来分析其性能。通过火山引擎云拨测的 即时拨测 功能,可以探测使用 SSE 协议的大模型对话接口,具体教程如下。

  • 首先进入即时拨测创建页面,选择单协议->HTTP协议

picture.image

  • 在高级配置中,可以填写所需的 HTTP 方法和 Request Body 内容,请求头中,可以填写必要的鉴权信息

picture.image

  • 在任务目标中,填写探测 URL,断言可以使用默认的配置

picture.image

  • 最后选择所需要发起探测的区域用来模拟真实用户所在网络环境,如下图

picture.image

  • 最后点击运行任务即可发起探测

任务运行后,可以在任务分析页面看到当前探测的情况,包含了 HTTP 协议相关的丰富的统计数据。

picture.image

通过详情页面,还可以进一步了解接口的返回内容详情。

picture.image picture.image

这里我们可以清楚看到接口使用了 SSE 推送数据,消息格式也是符合标准的。看完教程相信你对于成为“AI 测评官”更有信心了,快看文末活动详情来参与活动吧~

火山引擎云拨测

火山引擎云拨测是依托于字节跳动 19 亿用户业务下的 数字体验监控最佳实践 ,以及基于全球分布的基础设施优势而打 造的一款拨测产品。

picture.image

通过分布在全球各地的监测节点来模拟用户访问云服务,火山引擎云拨测实现端到端的网络可用性、稳定性以及用户体验的可观测。帮助使用者快速发现、定位和诊断网络服务问题,提升用户体验。火山引擎云拨测拥有以下优势:

  • 覆盖全球的节点资源 :云拨测支持全球范围的网络监测。1200+ 监测节点覆盖了全球范围的不同城市、不同运营商。同时支持私有监测节点的部署。

  • 开箱即用,低成本接入 :云拨测提供可视化的控制台。无需研发介入,对业务代码、技术架构无侵入。

  • 多维分析诊断 :交互式的图表,带来灵活的多维度对比下专业的分析诊断体验。

  • 智能报警 :基于多维度、多指标、智能基线进行实时异常检测,支持多渠道通知您的团队,降低MTTR。

  • 最佳实践 :云拨测已帮助火山引擎多个云服务、飞书等技术团队监控网络质量,定位网络故障,协助提高服务可靠性,成为网络监控的最佳实践。

AI 测评官活动

扫码添加小助手,获取云拨测试用链接,使用云拨测完成大语言模型拨测即可获得一等奖,如果猜出了文中提到的模型 C,还能额外获得特等奖,奖品有限,先到先得哦~

picture.image

奖品设置

一等奖

多功能背包

picture.image

picture.image

特等奖

磁吸充电宝

picture.image

picture.image

同时, 目前火山引擎云拨测优惠活动正在进行中,不仅可以 免费试用 ,还能享受 买多少送多少、资源包限时 5 折 的优惠!点击【

阅读原文 】,免费申请试用~

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论