大家好,我是PaperAgent,不是Agent!
今天分享一篇很干的综述,303页《从代码基础模型到智能体与应用:代码智能实践指南 》,来自近30家 顶尖机构,企业代表:阿里巴巴、字节跳动、OPPO、StepFun、快手、华为云、腾讯,建议阅读原文,链接在文末 。
2021 年至 2025 年代码大型语言模型 (Code-LLM) 及相关生态系统的发展概况。
专攻于大模型训练的小伙伴推荐,手撕LLM 2.0!手撕 DeepSeek-V3
大型语言模型(LLMs)通过将自然语言描述直接转化为功能性代码,从根本上改变了自动化软件开发的格局,并通过诸如 GitHub Copilot(微软)、Cursor(Anysphere)、Trae(字节跳动)和 Claude Code(Anthropic)等工具推动了其商业应用。
AI驱动的代码生成领域中编程开发和研究格局的演变
尽管该领域已从基于规则的系统演变为基于 Transformer 的架构,在 HumanEval 等基准测试中的表现也从个位数成功率提升至超过 95%。
HumanEval 上代码语言模型进展的时间线
在本文中,提供了关于代码 LLM 的综合分析与实用指南(一系列分析与探查实验),系统性地审视了从数据管理到后期训练的完整模型生命周期,涵盖高级提示范式、代码预训练、监督微调、强化学习及自主编码代理 。
分析了通用 LLM(如 GPT-4、Claude、LLaMA)与代码专用 LLM(如 StarCoder、Code LLaMA、DeepSeek-Coder 和 QwenCoder)的代码能力,批判性地审视其技术、设计决策与权衡。
闭源code LLMs发展
开源code LLMs能力
此外,还阐明了学术研究(如基准测试与任务)与真实世界部署(如软件相关代码任务)之间的研究-实践差距,包括代码正确性、安全性、大型代码库的上下文感知能力,以及与开发工作流的集成,并将有前景的研究方向映射至实际需求。
code llm安全对齐的数据生成pipeline
代码任务与benchmarks
最后,开展了一系列实验,全面分析代码预训练、监督微调与强化学习,涵盖扩展规律、框架选择、超参数敏感性、模型架构与数据集对比 。
模型架构对比Kimi-K2-Instruct 与 Qwen3-Coder.
模型架构CodeBERT, CodeT5, and GPT
开源code-llm架构分类
关注模型训练的小伙伴,推荐手撕LLM 2.0!手撕 DeepSeek-V3
不同Code LLMs的训练阶段
强化学习技术一览
code对齐数据生成方法
coding agents技术栈
解决issue的典型工作流
https://arxiv.org/pdf/2511.18538
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
推荐阅读
动手设计AI Agents:(编排、记忆、插件、workflow、协作)
每天一篇大模型Paper来锻炼我们的思维已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦
