Andrej Karpathy 提出判断什么工作会被 AI 替代的新标准 - 文章 - 开发者社区

Andrej Karpathy 最近提出了一个判断哪些工作会被 AI 替代的新标准：不看复杂度，看可验证性。

picture.image

这个观点颠覆了很多人的直觉。按照传统想法，越复杂的工作越难被替代，越简单的工作越容易被自动化。但 Karpathy 发现，真正的分界线在于任务是否可以快速验证对错。

Software 2.0 的核心逻辑

Karpathy 把这个现象放在 Software 2.0 的框架下解释。他认为 AI 就是一种新的编程范式：

Software 1.0 时代 ：程序员的价值在于把规则写清楚，告诉计算机该做什么。那时候能被自动化的，主要是那些有固定算法、按既定规则机械处理信息的任务，比如打字、记账、人工计算。

Software 2.0 时代 ：我们通过指定目标（比如分类准确率、奖励函数），让神经网络通过梯度下降在程序空间中搜索，找到能很好完成任务的解决方案。

关键变化是： Software 1.0 自动化你能定义的，Software 2.0 自动化你能验证的。

对于一个任务要被 AI 很好地自动化，环境需要满足三个条件：

这就是为什么数学、编程这些看起来复杂的任务进展飞快。那是因为它们有明确的对错标准，AI 可以"练习"无数遍。而创意、战略规划这些看似简单的任务反而进展缓慢，因为很难快速验证结果的好坏。

这个框架在实际工作中已经有了体现。有开发者提到，现在更注重单测的书写，确保 AI 给出的代码能够满足审阅的单测。只要验证通过了，具体实现流程用了什么算法什么框架什么语言都不重要。

另一个有趣的观察是，代码产量增加一个量级后，人脑无论如何也跟不上。但可以增加防线：通过各种自动化验证程序来把关，这些验证程序本身也可以用 AI 来构建。

当然，这个框架也有局限性。几个值得注意的点：

验证性无法区分偶然复杂性和本质复杂性 。编码代理即使完成任务，也可能产生大量不必要的代码。

临床实验是个反例 。在人类身上进行临床试验耗时很长，AI 假设无法快速验证。即使顶级科学家也无法高度准确地预测结果。

验证成本是关键 。几乎所有事情最终都是可验证的（比如是否产生积极的经济价值，是否获得好评），关键问题在于验证任务需要多少资源。

小结

在这个逻辑框架下，未来最值钱的技能可能是如何将"业务目标"表达为"可验证目标"。测什么如何测比如何做更重要，就像illya 关注的“超级对齐”一样，怎么去管理和验证比自己更强大的AI才是关键难题。当自己信心满满愿意使用AI的产出时，自己就该被替代了。。。

关注公众号回复“进群”入群讨论。