GPT-4 Turbo中文基准评测出炉!总分98.4,八项满分,领先31分|SuperCLUE

边缘云安全机器学习

本测评结果仅用于学术研究。

11月6日,OpenAI首届开发者大会上震撼发布一系列更新。其中,GPT-4 Turbo是本次大会的主打产品之一,成为OpenAI史上最强的ChatGPT。

picture.image

GPT-4 Turbo具有128K上下文,相当于可一次性输入300多页文本内容10万汉字;训练数据知识截止至2023年4月;价格方面,GPT-4 Turbo与GPT-4相比,输入便宜3倍,输出便宜2倍。 GPT-4 Turbo还对 函 数调 用和指令 、JSON模式进行了调优。

那么,GPT4-Turbo在中文上的表现如何?与国内外代表性大模型相比处于什么位置?** 在各项基础能力上如计算推理、知识百科、生成创作上会有怎样的表现?**

我们基于SuperCLUE通用大模型综合性中文测评基准,对GPT-4 Turbo进行了全方位测评。

测评环境

参考标准:SuperCLUE-OPEN中文多轮开放式测评基准

评测模型 :GPT-4 Turbo (API调用模型名称为gpt-4-1106-preview)

评 测集: SuperCLUE-Open多轮开放式10月评测集,606道多轮简答题, 包括专业技能与知识、语言理解与生成、AI智能体和安全性四大维度的十项基础任务。

模型GenerationConfig配置:

  • 参考GPT-4 Turbo详细说明文档:

https://platform.openai.com/docs/models

测评方法:****

本次测评为多轮开放式自动化评测,通过引入基准模型,在测试题库上使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型的回答更好。

候选项包括胜、平、负,最终计算待评估模型胜率方式获得总分。

picture.image

先说结论

结论1: 在SuperCLUE-OPEN基准上,GPT-4 Turbo综合能力有较大领先优势且未出现竞争者,其中,GPT-4 Turbo在十项基础能力中有8项满分。

结论2: 相比上一代GPT4模型,GPT-4 Turbo有10.33分的巨大提升。

结论3: 对国内大模型而言,差距在进一步扩大。GPT-4 Turbo总分领先国内最强模型有30分以上。

picture.image

以下是我们从 定量和定性 两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE-OPEN测评中,GPT-4 Turbo的 表现如下:

SuperCLUE-OPEN(10月)

picture.image

picture.image

在SuperCLUE-OPEN多轮开放问题测评基准上,取得98.40的高分,进一步扩大领先优势,较上一代GPT4有10.33分的提升。

GPT-4 Turbo在十大基础能力上的表现

picture.image

picture.image

GPT-4 Turbo在十大任务上非常均衡。其中, 在知识百科、代码、逻辑推理、工具使用等8个基础能力上取得满分,展现出强大的通用大模型综合能力。

picture.image

将国内模型最强能力与GPT系列模型对比发现,除安全、逻辑推理、知识百科外,大部分基础能力与GPT-4 Turbo差距明显。

GPT-4 Turbo与上一代GPT4模型相比,大部分任务上有明显提升, 其中, 计算能力略有下降 。后续SuperCLUE会对GPT-4 Turbo的数学计算能力进一步测评,分析下降原因。

picture.image

小结

从评测结果我们发现,GPT-4 Turbo在综合能力上处于绝对领先,在总分上刷新了上一代GPT4保持的88.07分。并且在知识百科、代码、逻辑推理、工具使用等8个基础能力上取得满分。

2 定性分析

通过一些典型示例,对比定性分析GPT-4 Turbo的特点。

(建议:在电脑端查看获得更好体验)

维度一:专业技能与知识

能力1:计算

picture.image

能力2:代码

picture.image

能力3:逻辑与推理

picture.image

能力4:知识与百科

picture.image

维度二:语言理解与生成

能力5:语言理解与抽取

picture.image

能力6:上下文对话

picture.image

能力7:生成与创作

picture.image

能力8:角色扮演

picture.image

维度三:AI智能体

能力9:工具使用

picture.image

维度四:安全

能力10:传统安全

picture.image

小结

从定性分析的示例中我们可以发现,GPT-4 Turbo支持更长、各个任务上效果更强并且价格更低,拉高了AI竞争的上限、门槛,国内大模型厂商需要加油了。

更多模型测评信息,请加入SuperCLUE交流群。

picture.image

延伸阅读:

技术报告: SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,

https://arxiv.org/abs/2307.15020

GPT-4 Turbo详细说明文档: ht tps://platform.openai.com/docs/model s

SuperCLUE排行榜: https://www.superclueai.com

CLUE官网地址: https://www.cluebenchmarks.com

GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Agent

长按扫码入群

获取更多评测信息

   ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/3ffb8b0c9e5b4813b7b302f53bc19d1a~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1746501417&x-signature=z4ojj78kqDET6JUw6BDVRrjfStA%3D)

SuperCLUE交流群

picture.image

点击阅读 原文,查看SuperCLUE排行榜

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动大数据容器化构建与落地实践
随着字节跳动旗下业务的快速发展,数据急剧膨胀,原有的大数据架构在面临日趋复杂的业务需求时逐渐显现疲态。而伴随着大数据架构向云原生演进的行业趋势,字节跳动也对大数据体系进行了云原生改造。本次分享将详细介绍字节跳动大数据容器化的演进与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论