Andrej Karpathy:2025大模型年度盘点

大模型机器学习算法

原文:https://karpathy.bearblog.dev/year-in-review-2025/

2025年LLM年度盘点

picture.image

unnamed

2025年可谓是LLM领域强劲且波澜壮阔的一年。Andrej Karpathy在这篇年度回顾中,盘点了那些让人印象深刻、甚至有点出乎意料的"范式转变"——这些变化彻底改写了行业格局,在概念层面上给人耳目一新的冲击。

1. 可验证奖励强化学习(RLVR)——新阶段横空出世

2025年初,所有实验室的LLM生产流程基本都长这样:

  1. 预训练(GPT-2/3那一套,大约2020年的技术)
  2. 监督微调(InstructGPT那套,约2022年)
  3. 基于人类反馈的强化学习(RLHF,也是2022年)

这套稳定且被验证过的配方,一度是训练生产级LLM的标准流程。到了2025年,可验证奖励强化学习(RLVR)横空出世,事实上成为了这个流程中新增的重磅环节。

通过让LLM在各种自动可验证的环境中(比如数学题、编程难题)针对奖励进行训练,LLM竟然自发地演化出了在人类看来像是"推理"的策略——它们学会了把解题过程拆解成中间步骤,还掌握了各种来回试探、逐步求解的问题解决技巧(具体案例可以参考DeepSeek R1的论文)。这些策略在之前的范式里几乎不可能实现,因为根本不清楚什么样的推理轨迹和纠错方式对LLM来说才是最优的——它必须通过针对奖励的优化,自己摸索出有效的方法。

跟SFT和RLHF这两个相对"轻薄"的阶段(计算量上只是小修小补)不同,RLVR是针对客观的、不可操纵的奖励函数进行训练,这就允许进行更长时间的优化。事实证明,运行RLVR能带来极高的性价比,这直接把原本打算用来预训练的算力都吞了进去。

因此,2025年大部分的能力提升,都是各家实验室在这个新阶段疯狂堆算力的结果——看到的是模型体量差不多,但RL训练时间长得多。这个阶段还带来了一个全新的调节旋钮(以及相应的扩展定律):通过生成更长的推理轨迹、增加"思考时间",就能在测试阶段用算力换取能力提升。

OpenAI的o1(2024年底)是第一个RLVR模型的demo,但真正让人直观感受到质变的,是o3的发布(2025年初)——那是一个明显的拐点,能直观地感受到差异。

2. 幽灵vs动物——参差不齐的智能形状

2025年是整个行业第一次开始更直观地理解LLM智能"形状"的一年。正如Karpathy所说,大家不是在"进化/培养动物",而是在"召唤幽灵"。

LLM技术栈的一切都是不同的(神经架构、训练数据、训练算法,尤其是优化压力),所以得到的是智能空间中截然不同的实体,根本不适合用动物的视角去理解,这一点也不奇怪。从监督信号的角度来说,人类神经网络的优化目标是在丛林中让部落存活下来,而LLM神经网络的优化目标是模仿人类的文本、在数学谜题中收集奖励、在LM Arena上获得人类的点赞。

随着可验证领域开始支持RLVR,LLM在这些领域附近的能力会出现"尖峰",整体展现出令人啼笑皆非的参差不齐——它们同时是天才级别的博学者和困惑迷茫、认知能力堪忧的小学生,随时可能被越狱攻击忽悠着泄露数据。

picture.image(人类智能:蓝色,AI智能:红色。这个版本的梗图很有意思,因为它指出了人类智能其实也以另一种方式参差不齐。)

跟这一切相关的,是Karpathy在2025年对基准测试普遍的冷感和信任崩塌。核心问题在于,基准测试几乎天然就是可验证环境,因此立刻就会被RLVR以及通过合成数据生成的弱化版本盯上。在典型的刷榜流程中,LLM实验室的团队不可避免地会在嵌入空间中靠近基准测试所占据的小片区域构建环境,然后长出"尖刺"来覆盖它们。在测试集上训练已经成了一门新艺术。

把所有基准测试都刷爆,但还是没有AGI——这会是什么样子?

关于这一节的内容,Karpathy在这些文章里写了更多:

  • 动物vs幽灵
  • 可验证性
  • 心智空间

这句话笔者反复阅读了下,主要想表达的意思是:

AI并不像人(动物)那样各方面能力均衡地成长,而是一个极度偏科的“幽灵”——它既能在奥数和代码上秒杀天才,又会在最简单的常识或诱导下像个智障,智能分布呈现出一种“局部封神、局部极弱”的剧烈反差。

3. Cursor——LLM应用的新层级火了

Cursor最让人印象深刻的(除了它今年的火箭式崛起),是它令人信服地揭示了"LLM应用"的一个新层级——人们开始谈论"XX领域的Cursor"。

正如Karpathy在今年Y Combinator演讲中强调的(文字稿和视频),像Cursor这样的LLM应用会针对特定垂直领域打包和编排LLM调用:

  1. 它们做"上下文工程"
  2. 它们在幕后编排多个LLM调用,串成越来越复杂的DAG,精心平衡性能和成本的权衡
  3. 它们为人类在环中提供特定应用的GUI
  4. 它们提供"自主性滑块"

2025年有大量讨论都花在了这个新应用层有多"厚"上。LLM实验室会不会把所有应用都吃掉,还是LLM应用还有广阔天地?

Karpathy个人觉得,LLM实验室的趋势是培养出泛用能力的大学生,但LLM应用会通过提供私有数据、传感器和执行器以及反馈循环,把它们组织、微调并真正激活成特定垂直领域的专业人士。

4. Claude Code——生活在电脑上的AI精灵

Claude Code(CC)横空出世,成为第一个令人信服的LLM Agent示范——它以循环的方式串联工具使用和推理,进行长时间的问题解决。

此外,CC让人印象深刻的是,它运行在用户的电脑上,使用私有环境、数据和上下文。Karpathy认为OpenAI在这个问题上搞错了方向,因为他们早期的codex/agent工作重点放在了从ChatGPT编排云端容器部署上,而不是简单地用 localhost

虽然在云端运行的agent集群感觉像是"AGI终局",但现实是生活在一个能力参差不齐、进展相对缓慢的过渡世界,更合理的做法是让agent直接运行在开发者的电脑上。需要注意的是,真正重要的区别不在于"AI操作"恰好在哪里运行(云端、本地或其他),而在于其他一切——已经存在并启动的电脑、它的安装配置、上下文、数据、密钥、配置,以及低延迟的交互。

Anthropic把这个优先级搞对了,把CC打包成了一个令人愉悦的、极简的CLI形态,改变了AI的样子——它不再只是一个像Google那样的网站,而是"生活"在电脑上的一个小精灵/幽灵。这是一种与AI交互的全新的、独特的范式。

5. 编程氛围——人人都能写代码了

2025年是AI跨越能力门槛的一年,现在只要用英语就能构建各种令人印象深刻的程序,完全不用管代码的存在。

有趣的是,Karpathy在这条思绪泉涌的推文中创造了"氛围编程(Vibe Coding)"这个词,完全没想到它会走这么远:)。有了氛围编程,编程不再是训练有素的专业人士的专属,而是任何人都能做的事情。

从这个角度来说,这又是赋能于民:LLM如何翻转技术扩散的剧本中写到的又一个例子——(与迄今为止所有其他技术形成鲜明对比的是)普通人从LLM中受益的程度,远远超过专业人士、企业和政府。

但氛围编程不仅让普通人能够接触编程,还让训练有素的专业人士能够写出大量原本永远不会被写出来的(氛围编码的)软件。在nanochat项目中,Karpathy用氛围编程在Rust中实现了自己定制的高效BPE分词器,而不用采用现有库或深入学习Rust。今年他氛围编程了很多项目,作为想要实现的东西的快速demo(比如menugen、llm-council、reader3、HN时光胶囊)。

甚至还氛围编程了整个一次性应用,就为了找一个bug——因为为什么不呢,代码突然变得免费、短暂、可塑、用完即弃。氛围编程将重塑软件生态,改变职位描述。

6. Nano Banana——LLM的GUI来了

Google Gemini的Nano Banana是2025年最不可思议、最具范式转变意义的模型之一。

在Karpathy的世界观里,LLM是类似于1970、80年代计算机的下一个重大计算范式。因此,会看到基本相似的创新,原因也基本相似。会看到个人计算的等价物、微控制器的等价物(认知核心)、互联网的等价物(agent的互联网)等等。

特别是在UI/UX方面,跟LLM"聊天"有点像在1980年代向计算机控制台发出命令。文本是计算机(和LLM)偏爱的原始数据表示,但它不是人们偏爱的格式,尤其是在输入端。人们其实不喜欢阅读文本——这既慢又费力。

相反,人们喜欢以视觉化和空间化的方式消费信息,这就是为什么传统计算中会发明GUI。同样的道理,LLM应该用大家偏爱的格式来对话——图片、信息图表、幻灯片、白板、动画/视频、web应用等等。

这方面的早期和当前版本当然是emoji和Markdown这类东西,它们是用标题、粗体、斜体、列表、表格等"装扮"和布局文本的方式,让信息更容易视觉化消费。但谁会真正构建LLM的GUI呢?

在这个世界观中,Nano Banana是对此可能样子的第一个早期提示 。重要的是,它的一个显著特点不仅仅是图像生成本身,而是来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。

总结

2025年是LLM激动人心且略显意外的一年。LLM正在成为一种新型智能,同时比预期的要聪明得多,也比预期的要笨得多。无论如何,它们极其有用,整个行业可能还没有意识到它们潜力的10%,即使以目前的能力水平。

与此同时,还有太多想法值得尝试,从概念上讲,这个领域感觉还是一片开阔。正如Karpathy今年早些时候在Dwarkesh播客上提到的,他同时(表面上看似矛盾地)相信,既会看到快速持续的进展,又还有大量工作要做。

picture.image

添加微信,备注” LLM “进入大模型技术交流群

picture.image

picture.image

如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢

/ 作者:ChallengeHub小编

/ 作者:欢迎转载,标注来源即可

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论