火山方舟 Coding Plan 上新 | 开发者深度横评,拆解三大模型核心差异

点击上方 👆蓝字关注我们!

picture.image

本文来自优秀开发者投搞

这周打开火山方舟 Coding Plan,突然发现模型列表里多了三个狠模型:GLM 5.1、Kimi K2.6、MiniMax M2.7 。三个都是最近两周刚发布的国产开源旗舰模型,主打 Agent 能力,都在 SWE-Bench Pro 上打到了 56%-58% 的水平。巧了,全挤在一起上线。

对开发者来说,这其实是个甜蜜的烦恼——选择多了,但不知道选谁。它们看起来跑分差不多,但实际上定位完全不同。我把三个模型分别挂进 Agent 工具里跑一圈,发现它们各自有一个"杀手级"能力,是另外两个模型做不到的。

先看效果

  1. 我用 GLM 5.1 重构了很久以前的屎山代码,从头到尾自主工作,闭环优化,全程不干预,只让它自己跑。

  2. 把网站录屏发给 Kimi K2.6,它一步复刻了这个复杂网站的结构。

  3. Minimax M2.7 用 Agent teams 来给已有项目安全新增功能,来看一下可视化后的讨论过程。

三个模型怎么选?

看过真实效果后,具体怎么选型?一张表讲清楚:

你的需求

|

选这个

|

为什么

| |

甩一个大任务出去不想盯

|

GLM 5.1

|

自主闭环,写→测→修→交付

| |

需要看截图 / 设计稿写代码

|

Kimi K2.6

|

原生多模态

| |

要多个 Agent 分角色协作

|

MiniMax M2.7

|

原生 Agent Teams + 对抗推理

| |

算力紧张,追求低成本

|

MiniMax M2.7

|

10B 激活,成本最低

| |

长上下文大项目

|

Kimi K2.6

|

262K 上下文,三个里最长

|

核心差异速览

_

|

GLM 5.1

|

Kimi K2.6

|

MiniMax M2.7

| |

出品方

|

Z.AI(智谱 )

|

Moonshot AI(月之暗面 )

|

MiniMax

| |

架构

|

754B MoE, 40B 激活

|

~1T MoE, 32B 激活

|

230B MoE, 10B 激活

| |

SWE-Bench Pro

|

58.40%

|

58.60%

|

56.20%

| |

杀手级能力

|

8 小时闭环自主工程

|

原生多模态 + 300 Agent 蜂群

|

自我进化 + 原生 Agent Teams

| |

一句话定位

|

不用盯的工程师

|

看得见的全栈手

|

自己带团队的 Agent

|

虽然跑分很接近,但是"怎么用"完全不同。

GLM 5.1:不是写完就跑的模型,是"写完自己测、测不过自己修"

智谱的技术报告标题就很直白——"From Vibe Coding to Agentic Engineering"。翻译成人话:别光靠氛围写代码了,要像工程师一样干活。

GLM 5.1 最让我有感觉的不是跑分(虽然 SWE-Bench Pro 58.4% 确实是开源最高一档 ),而是它的闭环能力。

什么叫闭环?

普通模型的工作方式是:你给任务 → 它写代码 → 交给你 → 你跑测试 → 发现不对 → 你再给它 → 它再改。你是那个"测试 → 反馈 → 再催"的中间人。

但 GLM 5.1 的工作方式是:你给任务 → 它写代码 → 它自己跑测试 → 发现不对 → 它自己分析原因 → 它自己改 → 再跑 → 直到通过 → 交给你。

适合什么场景:项目级重构、批量代码迁移、"甩一个任务出去不用盯"的长线活。

Kimi K2.6:"看得见"的超强大模型

Kimi K2.6 的跑分和 GLM 5.1 几乎打平(SWE-Bench Pro 58.6% vs 58.4% ),但它有一个另外两个模型都不主打的能力——原生多模态。

什么意思?

你可以直接丢一张 UI 截图给它,说"照着这个写"。不用把图里的东西翻译成文字再喂给模型。

以前的流程:看设计稿 → 脑子里分析布局 → 用文字描述"左边一个头像 64px,右边三行文字,第一行粗体 16px..."→ 喂给模型 → 出来不对 → 再描述一遍。太累了。

现在的流程:截图 → 丢进去 → "照着写" → 出来不完美 → 圈一下哪里不对 → 它看图改。

这个体验差异,用过的人都懂。

适合什么场景:截图 → 代码、设计稿还原、需要视觉输入的前端任务、长链 Agent 工作流。

MiniMax M2.7:最便宜、最小、最"会带团队"

MiniMax M2.7 是三个模型里参数最小的(230B 总参,只激活 10B/token,激活率 4.3% ),也是推理成本最低的。但它是一个自我进化的模型——在训练阶段,自主管理了 30%-50% 的训练流水线工作。

具体什么意思?模型自己执行了 100+ 轮的"分析失败轨迹 → 修改脚手架代码 → 运行评估"循环,实现了 30% 的性能提升。不是研究员手动调的,是模型自己调的。

这个技术能力延伸到了使用层面,体现为 M2.7 的原生 Agent Teams 能力:

  • 角色锚定:给不同 Agent 分配角色后,它们能稳定保持各自的立场和行为风格

  • 对抗推理:Agent 之间不是互相附和,而是基于各自角色真正辩论

  • 协议遵守:在复杂的多步协作中保持行为一致性

适合什么场景:多 Agent 团队协作、需要跑大量请求的批量任务(成本最低 )、办公自动化、需要稳定角色扮演的场景。

实战演示

了解完它们的能力和差异后,来看一下我在实际场中的具体操作。

GLM 5.1——项目重构,自主执行,闭环优化

需求: 让 GLM 5.1 把一个屎山代码从头到尾完全重构。

如下所示,代码真的不忍直视。

  
codingplan-case/glm/  
├── index.js      # 547 行,所有路由+逻辑+中间件全在这  
├── db.js         # 77 行,硬编码密码、单连接无池  
├── helpers.js    # 129 行,工具函数大杂烩  
├── seed.js       # 94 行,种子数据脚本  
├── package.json  # Express 4 + body-parser(过时 )  
└── README.md

picture.image

于是,我让它自己去重构、测试和修复,下面是 Prompt:

  
这是我很久以前写的一个待办事项项目,是一堆很难维护的屎山代码。请帮我全面升级:  
1. JavaScript → TypeScript(全量类型标注 )  
2. Express.js → Fastify(中间件改插件,回调改 async/await )  
3. 裸 SQL → Drizzle ORM + 连接池  
4. 单文件 → 四层目录:routes/ → services/ → repositories/ → models/  
5. 加上 vitest 集成测试,所有 20 个接口行为必须与原版一致  
6. 敏感信息移到 .env,密码做 hash  
写完后自动运行 vitest,不过就自己分析原因并修复,直到全部通过。  
不要问我,自己判断、自己修、自己验证。

在阅读代码之后,它制定了详细的修复计划:

picture.image

并且全程自主执行。

picture.image

改完之后再自主测试,出现问题会自我分析和修复,自主完成闭环。

picture.image

最后,直接交付了可用的结果。

picture.image

这是修改后的项目代码空间,非常规范。

picture.image

Kimi K2.6——直接看录屏和截图复刻复杂网站

需求: 我把一个网站的录屏发给 Kimi K2.6,让它 1:1 复刻。

它完全复刻出了炫酷的动态效果:

它完全能“看懂”这个视频里面的网站,知道里面每一部分分别是什么内容。

picture.image

看懂之后,它制定了详细的计划来复刻:

picture.image

它能够非常准确地把握网站的结构,做出的初版网站,非常不错。

然后,我截了个图直接发给它,让它把这部分动效加上。

picture.image

它瞬间就理解了,并给出了非常好的答案:

picture.image

我又给它录了一个小视频,展示原网站的鼠标跟随动效,它完全能够理解视频的效果,指哪改哪。

picture.image

对比效果:

虽然只是简单地改了两三次,就已经把这个复杂的网站还原得七七八八了。

后续可以精益求精,每个地方都截图让它对照着还原和改动,也可以直接在现在的结构上加上自己的设计,能做出更精美的网站效果。

MiniMax M2.7——原生支持 Agent Team

需求: 我让 MiniMax M2.7 用 Agent Team 来检查现有项目并安全新增功能。

  
项目空间里面有一个工单系统的后端,线上跑了半年多没出过大事。现在产品要加两个功能:  
(1 )工单转派——把工单从 A 转给 B,要记录转派原因和完整链路;  
(2 )紧急工单审批流——critical 级别的工单需要主管审批才能关闭。  
  
在动代码加功能之前,我需要你用 Agent Team 模式做一轮全面审查。请配置三个 Agent:  
  
**Security Reviewer**  
- 身份:5 年安全工程经验,参与过多次渗透测试  
- 职责:审查所有安全风险——注入漏洞、认证缺陷、敏感信息泄露、越权访问、文件上传风险、SSRF  
- 输出要求:每个发现标注 CRITICAL/HIGH/MEDIUM/LOW,给出具体攻击场景("攻击者可以通过 X 实现 Y" )  
  
**Code Quality Reviewer**  
- 身份:8 年 Python 后端开发,重度 code review 参与者  
- 职责:审查代码质量——重复逻辑、错误处理缺失、类型安全、命名规范、函数职责、性能隐患  
- 输出要求:每个发现给出重构方案和优先级  
  
**Architecture Reviewer**  
- 身份:技术负责人,关注系统可维护性和团队协作效率  
- 职责:评估架构——模块耦合度、职责划分、扩展性瓶颈、配置管理、新功能可加性  
- 输出要求:重点回答"以当前架构,加转派和审批流功能的风险有多大?需要先还哪些技术债?"  
  
请按以下流程执行:  
  
**Step 1 - 独立审查**  
三个 Agent 各自独立审查代码,只关注自己的领域,互不干扰。  
  
**Step 2 - 交叉对抗**  
三个 Agent 看到彼此的审查结果后,针对有争议的点进行讨论:  
- 如果 Security 要求的修复会降低代码可读性,Quality 要提出替代方案  
- 如果 Architecture 建议拆分模块,Quality 要评估拆分的成本收益  
- 如果 Security 和 Architecture 的建议冲突(比如"加验证" vs "在中间件层统一处理" ),要辩论出最优解  
每个 Agent 必须坚持自己的专业立场,不能无条件妥协。  
  
**Step 3 - 统一修复方案**  
综合三方意见,输出一份修复清单:  
- P0(阻塞新功能开发,必须先修 )  
- P1(不阻塞但有风险,本周内修 )  
- P2(改进建议,排期处理 )  
每条标注:问题 → 修复方案 → 主导角色 → 是否影响新功能开发

它按照指令启动了三个不同的 Agent 来审查。

picture.image

三个 Agent 分别专注于自己的任务。

picture.image

picture.image

picture.image

三方审查结束后,启动一个协调员来汇总三方审查,解决争议。

picture.image

picture.image

汇总后,给出了审查结果。

picture.image

接着,我让它进行修复。

  
根据上面的审查报告,请执行所有 P0 修复。  
  
要求:  
1. 输出修改后的完整 app.py  
2. 每个修改处用注释标注 # FIX-P0-{编号}: {简要说明}  
3. 修复后,让 Security Reviewer 做一轮快速复审,确认 P0 问题已解决  
4. 如果修复过程中发现新问题,追加到报告中

同样地,在修复完成后,启用一个 Agent 来做快速复审。

picture.image

确认完全修复后,开始让它新增功能。

  
现在请在修复后的代码基础上,实现"工单转派"功能:  
  
需求:  
- POST /api/tickets/<id>/transfer 接口  
- 参数:target_user_id(目标负责人 )、reason(转派原因 )  
- 业务规则:只有当前负责人或管理员可以转派;转派后原负责人变为协作人  
- 记录完整的转派链路(谁 → 谁,什么时间,什么原因 )  
- 转派后自动添加一条系统评论  
  
完成后,让三个 Agent 再审查一次新增的代码,重点关注:  
- Security:转派接口的权限控制是否充分  
- Quality:转派逻辑和现有 assign 逻辑是否有重复  
- Architecture:转派链路的数据模型是否合理,后续能否支持"转派审批"

功能实现后,继续启用 Agent Team 来进行审查。

picture.image

最后,给了完整的修复清单和功能汇总。

picture.image

然后,我还捞取了所有 Agent 的会话记录,可视化了它们的所有交流过程:

Coding Plan 保姆级配置教程

看到这里,是不是也想立刻体验一下 3 个模型,进行项目重构、复刻网站和检查项目?前提是,要在火山方舟 Coding Plan 中快速接入 Claude Code。以下是我的配置步骤:

快速接入 Claude Code

可参考文档进行配置:

https://www.volcengine.com/docs/82379/1928262?lang=zh#77277ce0

CLI 工具快速配置

步骤 1:安装 Claude Code

在终端执行以下命令安装 Claude Code。

  
npm install -g @anthropic-ai/claude-code

picture.image

验证安装:

  
claude --version

显示版本号即成功。

picture.image

步骤 2 省心版:自动化助手配置

Ark Helper 是一个编码工具助手,支持快速配置选择的工具接入 Coding Plan。安装并运行该助手,根据界面提示操作可自动完成工具配置,能降低手动配置的时间成本和出错风险。

注意

  • Ark Helper 仅支持 MacOS、Linux 系统,暂不支持 Windows 系统。

  • 以下配置步骤及截图为 Ark Helper 首次使用指引;非首次使用请按界面提示完成套餐配置和工具配置。

  1. 执行以下命令安装 Ark Helper。

  
curl -fsSL https://lf3-static.bytednsdoc.com/obj/eden-cn/ylwslo-yrh/ljhwZthlaukjlkulzlp/install.sh | sh

安装完成后,执行以下命令查看安装的版本号。

  
ark-helper --version
  1. 在命令行界面输入 ark-helper 命令,启动 Ark Helper。

picture.image

  1. 根据界面提示完成套餐配置。

a. 选择要配置的套餐:[Volcano] Volcano Engine(国内 )。

picture.image

b. 配置 API Key: 获取 API Key

https://console.volcengine.com/ark/region:ark+cn-beijing/apikey

picture.image

picture.image

c. 选择默认模型。

picture.image

  1. 根据界面提示完成 Claude Code 工具配置。

a. 选择要配置的编码工具:Claude Code。

picture.image

b. 选择设置 Volcano 配置到 Claude Code,配置完成后,选择退出。如果需要重新配置工具,可先选择卸载 Claude Code 配置,再重新执行配置流程。

picture.image

步骤 2 高级版:手动配置

需修改 2 个配置文件(替换 <ARK_API_KEY> 为你的 API Key:https://console.volcengine.com/ark/region:ark+cn-beijing/apikey

1. settings.json (路径根据系统选择 )

  • Mac/Linux:~/.claude/settings.json

  • Windows:C:\Users<用户名>.claude\settings.json

  
{  
    "env": {  
        "ANTHROPIC_AUTH_TOKEN": "<ARK_API_KEY>",  
        "ANTHROPIC_BASE_URL": "https://ark.cn-beijing.volces.com/api/coding",  
        "ANTHROPIC_DEFAULT_HAIKU_MODEL": "minimax-m2.7",  
        "ANTHROPIC_DEFAULT_SONNET_MODEL": "kimi-k2.6",  
        "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1"  
    }  
}

picture.image

2. .claude.json (路径根据系统选择 )

  • MacOS & Linux:~/.claude.json

  • Windows:C:\Users<用户名>.claude.json

  
{  
  "hasCompletedOnboarding": true  
}

picture.image

步骤 3:启动验证

打开新的终端窗口执行后续命令

  
cd <你的项目文件夹路径>  
claude

选择允许访问文件后,输入 /status 看到模型配置即成功!

picture.image

picture.image

切换模型:

  • 启动时:执行 claude --model <Model_Name>,可指定对应的模型。

  • 对话期间:执行 /model <Model_Name> 切换模型。

支持模型列表:

  • doubao-seed-2.0-code

  • doubao-seed-2.0-pro

  • doubao-seed-2.0-lite

  • doubao-seed-code

  • minimax-m2.7

  • minimax-m2.5

  • glm-5.1

  • glm-4.7

  • deepseek-v3.2

  • kimi-k2.6

  • kimi-k2.5

IDE 工具快速配置

Claude Code IDE 插件依赖 Claude Code CLI 工具,需先完成上一步 Claude Code CLI 的安装及配置。

推荐在 TRAE CN 中使用 Claude Code 插件:

Claude Code VSCode 插件支持在 VSCode 及基于 VSCode 的 IDE(如 Cursor )中使用。

步骤 1:安装 TRAE IDE

在 TRAE CN (https://www.trae.cn/) 官网下载最新版 TRAE IDE。

picture.image

步骤 2:安装 Claude Code IDE 插件

安装好后,打开扩展商店,搜索 Claude Code for VS Code 插件并安装。

picture.image

插件安装完成之后点击右上角的 Claude Code 图表进入对话页面。

picture.image

步骤 3:配置环境变量

在 Claude Code 对话框中输入/config,选择 General config... 进入配置页面。

picture.image

在 Claude Code: Environment Variables 区域单击 Edit in settings.json,修改 claudeCode.environmentVariables、claudeCode.selectedModel。

picture.image

  
...  
"claudeCode.selectedModel": "<Model_Name>",  
"claudeCode.environmentVariables": [  
    {  
        "name": "ANTHROPIC_BASE_URL",  
        "value": "https://ark.cn-beijing.volces.com/api/coding"  
    },  
    {  
        "name": "ANTHROPIC_AUTH_TOKEN",  
        "value": "<ARK_API_KEY>"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_SONNET_MODEL",  
        "value": "kimi-k2.6"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_OPUS_MODEL",  
        "value": "glm-5.1"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_HAIKU_MODEL",  
        "value": "minimax-m2.7"  
    }  
]  
...

picture.image

保存配置信息之后,就能在 TRAE IDE 中使用 Claude Code + Coding Plan。

总结一下,火山方舟 Coding Plan 更像一个“工程工具”,已经涵盖了国内的主流模型,如果需要“闭环能力”的项目就选 GLM 5.1,要用到原生多模态选 Kimi K2.6,多 Agent 团队协作就用 MiniMax M2.7。根据上面的教程配置好,就能在 Coding Plan 里开始全新体验!

欢迎订阅火山方舟 Coding Plan,多模型随心用,养虾更划算。

关注公众号回复:ArkClaw 攻略 ,领取“养虾宝典”,开启 AI 进化之旅。

0
0
0
0
评论
未登录
暂无评论