下一代基准测试ARC-AGI-3发布!各大AI的测试结果全是0!

AGI人工智能AIGC

今天凌晨,Keras创始人François Chollet在社交媒体上推出了下一代基准测试ARC-AGI-3的开发者预览版。

picture.image https://three.arcprize.org/

这个产品的发布,实际上宣告了AI基准测试的全面革命。

从OpenAI的o3模型突破ARC-AGI-1测试获得87.5%的惊人成绩,到如今ARC-AGI-3的横空出世,整个AI圈都在为一个问题而困扰:我们究竟离真正的AGI还有多远?

picture.image

游戏改变了一切

ARC-AGI-3的核心突破在于彻底抛弃了传统的"问答"模式,转向了真正的交互式体验。

Chollet在社交平台上直言不讳:"所有系统我们目前测试的得分都是0,但人类在几分钟内就能完全掌握这些游戏。"

picture.image

这些游戏看似简单,也就是在二维像素网格中解决谜题,但背后的挑战却是颠覆性的。

AI系统需要在没有任何指令的情况下,通过试错来理解游戏规则、控制方式和最终目标。

这种能力正是人类智能的核心特征:快速适应全新环境的能力。

picture.image

ARC Prize基金会主席Greg Kamradt告诉《科学美国人》:

"传统的基准测试都是无状态的:问一个问题,得到一个答案。但现实生活中,我们很少做出这种孤立的决策。你无法用无状态基准测试来评估规划能力、探索能力,或者对环境和目标的直觉理解。"

人类依然是"降维打击"

让所有AI研究者们尴尬的是,这些让最先进AI系统束手无策的游戏,对人类来说却轻而易举。

ARC Prize基金会测试了400名志愿者,发现普通人在ARC-AGI-2上的平均得分达到66%,而5-10个人的集体智慧甚至能解决所有问题。

这种反差暴露了当前AI发展的一个根本性问题:

尽管AI在某些专业领域超越了人类专家,但在最基础的学习和适应能力上,它们仍然远远落后于一个普通人。

picture.image

Chollet将这种现象称为"尖刺智能":

AI可以在特定领域表现出色,但缺乏人类那种跨领域的通用学习能力。

​人类出生后学会的大部分技能都超出了他们的'训练数据'范围。

我们会说话、开车、骑自行车......这些都是在进化先验之外学到的技能。"

交互式推理:智能测试的新纪元

ARC-AGI-3引入了"交互式推理基准"(IRB)的概念,这种测试方法能够评估AI系统的五个核心能力:

探索、感知-规划-行动、记忆、目标获取和对齐。

与传统的Atari游戏不同,ARC-AGI-3的游戏环境是全新设计的,没有现成的训练数据可供利用,也无法通过暴力计算来破解。

这些游戏基于"核心知识先验"构建,不依赖语言、文化符号或大量训练数据。

目前,ARC Prize基金会与HuggingFace合作推出了预览竞赛,提供7500美元的奖金池,鼓励开发者构建能够应对这些挑战的AI代理。

picture.image

竞赛将从7月18日持续到8月10日,所有参赛作品都必须开源。

AGI的新定义

Kamradt给出了两个判断AGI到来的标准:

第一,人工系统的学习效率能够匹敌人类

第二,我们再也找不到人类能做而AI做不到的问题。

如果是按照这个标准,我们显然还没有达到AGI。

即使是OpenAI最强大的o3模型,虽然在ARC-AGI-1上取得了突破性进展,但在面对全新的交互式挑战时,仍然表现得像个初学者。

重新定义智能的边界

ARC-AGI-3的发布不仅仅是一个新基准的诞生,它代表了我们对智能本质理解的深化。

真正的智能不是在海量数据中寻找模式,而是在极少信息的基础上快速适应全新环境的能力。

picture.image

这种能力对人类来说似乎是与生俱来的,但对当前的AI系统来说,却是一座难以逾越的高山。

无论GPT、Claude还是Gemini,它们在这些简单游戏面前都显得黔驴技穷。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论