303页年度最佳AI Code综述：阿里、字节、快手30家顶级机构出品 - 文章 - 开发者社区

大家好，我是PaperAgent，不是Agent！

今天分享一篇很干的综述，303页《从代码基础模型到智能体与应用：代码智能实践指南 》，来自近30家 顶尖机构，企业代表：阿里巴巴、字节跳动、OPPO、StepFun、快手、华为云、腾讯，建议阅读原文，链接在文末 。

picture.image

2021 年至 2025 年代码大型语言模型 (Code-LLM) 及相关生态系统的发展概况。

专攻于大模型训练的小伙伴推荐，手撕LLM 2.0！手撕 DeepSeek-V3 picture.image

大型语言模型（LLMs）通过将自然语言描述直接转化为功能性代码，从根本上改变了自动化软件开发的格局，并通过诸如 GitHub Copilot（微软）、Cursor（Anysphere）、Trae（字节跳动）和 Claude Code（Anthropic）等工具推动了其商业应用。

picture.image

AI驱动的代码生成领域中编程开发和研究格局的演变

尽管该领域已从基于规则的系统演变为基于 Transformer 的架构，在 HumanEval 等基准测试中的表现也从个位数成功率提升至超过 95%。

picture.image

HumanEval 上代码语言模型进展的时间线

picture.image

在本文中，提供了关于代码 LLM 的综合分析与实用指南（一系列分析与探查实验），系统性地审视了从数据管理到后期训练的完整模型生命周期，涵盖高级提示范式、代码预训练、监督微调、强化学习及自主编码代理 。

picture.image

分析了通用 LLM（如 GPT-4、Claude、LLaMA）与代码专用 LLM（如 StarCoder、Code LLaMA、DeepSeek-Coder 和 QwenCoder）的代码能力，批判性地审视其技术、设计决策与权衡。

picture.image

闭源code LLMs发展

picture.image

开源code LLMs能力

此外，还阐明了学术研究（如基准测试与任务）与真实世界部署（如软件相关代码任务）之间的研究-实践差距，包括代码正确性、安全性、大型代码库的上下文感知能力，以及与开发工作流的集成，并将有前景的研究方向映射至实际需求。

picture.image

code llm安全对齐的数据生成pipeline

picture.image

代码任务与benchmarks

最后，开展了一系列实验，全面分析代码预训练、监督微调与强化学习，涵盖扩展规律、框架选择、超参数敏感性、模型架构与数据集对比 。

picture.image

模型架构对比Kimi-K2-Instruct 与 Qwen3-Coder.

picture.image

模型架构CodeBERT, CodeT5, and GPT

picture.image

开源code-llm架构分类

关注模型训练的小伙伴，推荐手撕LLM 2.0！手撕 DeepSeek-V3 picture.image

picture.image

不同Code LLMs的训练阶段

picture.image

强化学习技术一览

picture.image

code对齐数据生成方法

picture.image

coding agents技术栈

picture.image

解决issue的典型工作流

  
https://arxiv.org/pdf/2511.18538  
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence