今天凌晨,Keras创始人François Chollet在社交媒体上推出了下一代基准测试ARC-AGI-3的开发者预览版。
这个产品的发布,实际上宣告了AI基准测试的全面革命。
从OpenAI的o3模型突破ARC-AGI-1测试获得87.5%的惊人成绩,到如今ARC-AGI-3的横空出世,整个AI圈都在为一个问题而困扰:我们究竟离真正的AGI还有多远?
游戏改变了一切
ARC-AGI-3的核心突破在于彻底抛弃了传统的"问答"模式,转向了真正的交互式体验。
Chollet在社交平台上直言不讳:"所有系统我们目前测试的得分都是0,但人类在几分钟内就能完全掌握这些游戏。"
这些游戏看似简单,也就是在二维像素网格中解决谜题,但背后的挑战却是颠覆性的。
AI系统需要在没有任何指令的情况下,通过试错来理解游戏规则、控制方式和最终目标。
这种能力正是人类智能的核心特征:快速适应全新环境的能力。
ARC Prize基金会主席Greg Kamradt告诉《科学美国人》:
"传统的基准测试都是无状态的:问一个问题,得到一个答案。但现实生活中,我们很少做出这种孤立的决策。你无法用无状态基准测试来评估规划能力、探索能力,或者对环境和目标的直觉理解。"
人类依然是"降维打击"
让所有AI研究者们尴尬的是,这些让最先进AI系统束手无策的游戏,对人类来说却轻而易举。
ARC Prize基金会测试了400名志愿者,发现普通人在ARC-AGI-2上的平均得分达到66%,而5-10个人的集体智慧甚至能解决所有问题。
这种反差暴露了当前AI发展的一个根本性问题:
尽管AI在某些专业领域超越了人类专家,但在最基础的学习和适应能力上,它们仍然远远落后于一个普通人。
Chollet将这种现象称为"尖刺智能":
AI可以在特定领域表现出色,但缺乏人类那种跨领域的通用学习能力。
人类出生后学会的大部分技能都超出了他们的'训练数据'范围。
我们会说话、开车、骑自行车......这些都是在进化先验之外学到的技能。"
交互式推理:智能测试的新纪元
ARC-AGI-3引入了"交互式推理基准"(IRB)的概念,这种测试方法能够评估AI系统的五个核心能力:
探索、感知-规划-行动、记忆、目标获取和对齐。
与传统的Atari游戏不同,ARC-AGI-3的游戏环境是全新设计的,没有现成的训练数据可供利用,也无法通过暴力计算来破解。
这些游戏基于"核心知识先验"构建,不依赖语言、文化符号或大量训练数据。
目前,ARC Prize基金会与HuggingFace合作推出了预览竞赛,提供7500美元的奖金池,鼓励开发者构建能够应对这些挑战的AI代理。
竞赛将从7月18日持续到8月10日,所有参赛作品都必须开源。
AGI的新定义
Kamradt给出了两个判断AGI到来的标准:
第一,人工系统的学习效率能够匹敌人类;
第二,我们再也找不到人类能做而AI做不到的问题。
如果是按照这个标准,我们显然还没有达到AGI。
即使是OpenAI最强大的o3模型,虽然在ARC-AGI-1上取得了突破性进展,但在面对全新的交互式挑战时,仍然表现得像个初学者。
重新定义智能的边界
ARC-AGI-3的发布不仅仅是一个新基准的诞生,它代表了我们对智能本质理解的深化。
真正的智能不是在海量数据中寻找模式,而是在极少信息的基础上快速适应全新环境的能力。
这种能力对人类来说似乎是与生俱来的,但对当前的AI系统来说,却是一座难以逾越的高山。
无论GPT、Claude还是Gemini,它们在这些简单游戏面前都显得黔驴技穷。