303页年度最佳AI Code综述:阿里、字节、快手30家顶级机构出品

大模型机器学习算法

大家好,我是PaperAgent,不是Agent!

今天分享一篇很干的综述,303页《从代码基础模型到智能体与应用:代码智能实践指南 》,来自近30家 顶尖机构,企业代表:阿里巴巴、字节跳动、OPPO、StepFun、快手、华为云、腾讯,建议阅读原文,链接在文末

picture.image

2021 年至 2025 年代码大型语言模型 (Code-LLM) 及相关生态系统的发展概况。

专攻于大模型训练的小伙伴推荐,手撕LLM 2.0!手撕 DeepSeek-V3picture.image

大型语言模型(LLMs)通过将自然语言描述直接转化为功能性代码,从根本上改变了自动化软件开发的格局,并通过诸如 GitHub Copilot(微软)、Cursor(Anysphere)、Trae(字节跳动)和 Claude Code(Anthropic)等工具推动了其商业应用。

picture.image

AI驱动的代码生成领域中编程开发和研究格局的演变

尽管该领域已从基于规则的系统演变为基于 Transformer 的架构,在 HumanEval 等基准测试中的表现也从个位数成功率提升至超过 95%。

picture.image

HumanEval 上代码语言模型进展的时间线

picture.image

在本文中,提供了关于代码 LLM 的综合分析与实用指南(一系列分析与探查实验),系统性地审视了从数据管理到后期训练的完整模型生命周期,涵盖高级提示范式、代码预训练、监督微调、强化学习及自主编码代理

picture.image

分析了通用 LLM(如 GPT-4、Claude、LLaMA)与代码专用 LLM(如 StarCoder、Code LLaMA、DeepSeek-Coder 和 QwenCoder)的代码能力,批判性地审视其技术、设计决策与权衡。

picture.image

闭源code LLMs发展

picture.image

开源code LLMs能力

此外,还阐明了学术研究(如基准测试与任务)与真实世界部署(如软件相关代码任务)之间的研究-实践差距,包括代码正确性、安全性、大型代码库的上下文感知能力,以及与开发工作流的集成,并将有前景的研究方向映射至实际需求。

picture.image

picture.image

code llm安全对齐的数据生成pipeline

picture.image

代码任务与benchmarks

最后,开展了一系列实验,全面分析代码预训练、监督微调与强化学习,涵盖扩展规律、框架选择、超参数敏感性、模型架构与数据集对比

picture.image

模型架构对比Kimi-K2-Instruct 与 Qwen3-Coder.

picture.image

模型架构CodeBERT, CodeT5, and GPT

picture.image

开源code-llm架构分类

关注模型训练的小伙伴,推荐手撕LLM 2.0!手撕 DeepSeek-V3picture.image

picture.image

不同Code LLMs的训练阶段

picture.image

强化学习技术一览

picture.image

code对齐数据生成方法

picture.image

coding agents技术栈

picture.image

解决issue的典型工作流

  
https://arxiv.org/pdf/2511.18538  
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence  

推荐阅读

动手设计AI Agents:(编排、记忆、插件、workflow、协作)

SOTA集体掉线,美团LongCat这个最新开源牛了!

AI Code赛道抛出一匹黑马:来自于字节跳动

一篇最新自演化AI Agents全新范式系统性综述


每天一篇大模型Paper来锻炼我们的思维已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论