火山方舟 Coding Plan 上新 | 开发者深度横评，拆解三大模型核心差异 - 文章 - 开发者社区

点击上方 👆蓝字关注我们！

picture.image

本文来自优秀开发者投搞

这周打开火山方舟 Coding Plan，突然发现模型列表里多了三个狠模型：GLM 5.1、Kimi K2.6、MiniMax M2.7 。三个都是最近两周刚发布的国产开源旗舰模型，主打 Agent 能力，都在 SWE-Bench Pro 上打到了 56%-58% 的水平。巧了，全挤在一起上线。

对开发者来说，这其实是个甜蜜的烦恼——选择多了，但不知道选谁。它们看起来跑分差不多，但实际上定位完全不同。我把三个模型分别挂进 Agent 工具里跑一圈，发现它们各自有一个"杀手级"能力，是另外两个模型做不到的。

先看效果

我用 GLM 5.1 重构了很久以前的屎山代码，从头到尾自主工作，闭环优化，全程不干预，只让它自己跑。
把网站录屏发给 Kimi K2.6，它一步复刻了这个复杂网站的结构。
Minimax M2.7 用 Agent teams 来给已有项目安全新增功能，来看一下可视化后的讨论过程。

三个模型怎么选？

看过真实效果后，具体怎么选型？一张表讲清楚：

你的需求

选这个

为什么

| |

甩一个大任务出去不想盯

GLM 5.1

自主闭环，写→测→修→交付

| |

需要看截图 / 设计稿写代码

Kimi K2.6

原生多模态

| |

要多个 Agent 分角色协作

MiniMax M2.7

原生 Agent Teams + 对抗推理

| |

算力紧张，追求低成本

MiniMax M2.7

10B 激活，成本最低

| |

长上下文大项目

Kimi K2.6

262K 上下文，三个里最长

核心差异速览

GLM 5.1

Kimi K2.6

MiniMax M2.7

| |

出品方

Z.AI（智谱）

Moonshot AI（月之暗面）

MiniMax

| |

架构

754B MoE, 40B 激活

~1T MoE, 32B 激活

230B MoE, 10B 激活

| |

SWE-Bench Pro

58.40%

58.60%

56.20%

| |

杀手级能力

8 小时闭环自主工程

原生多模态 + 300 Agent 蜂群

自我进化 + 原生 Agent Teams

| |

一句话定位

不用盯的工程师

看得见的全栈手

自己带团队的 Agent

虽然跑分很接近，但是"怎么用"完全不同。

GLM 5.1：不是写完就跑的模型，是"写完自己测、测不过自己修"

智谱的技术报告标题就很直白——"From Vibe Coding to Agentic Engineering"。翻译成人话：别光靠氛围写代码了，要像工程师一样干活。

GLM 5.1 最让我有感觉的不是跑分（虽然 SWE-Bench Pro 58.4% 确实是开源最高一档），而是它的闭环能力。

什么叫闭环？

普通模型的工作方式是：你给任务 → 它写代码 → 交给你 → 你跑测试 → 发现不对 → 你再给它 → 它再改。你是那个"测试 → 反馈 → 再催"的中间人。

但 GLM 5.1 的工作方式是：你给任务 → 它写代码 → 它自己跑测试 → 发现不对 → 它自己分析原因 → 它自己改 → 再跑 → 直到通过 → 交给你。

适合什么场景：项目级重构、批量代码迁移、"甩一个任务出去不用盯"的长线活。

Kimi K2.6："看得见"的超强大模型

Kimi K2.6 的跑分和 GLM 5.1 几乎打平（SWE-Bench Pro 58.6% vs 58.4% ），但它有一个另外两个模型都不主打的能力——原生多模态。

什么意思？

你可以直接丢一张 UI 截图给它，说"照着这个写"。不用把图里的东西翻译成文字再喂给模型。

以前的流程：看设计稿 → 脑子里分析布局 → 用文字描述"左边一个头像 64px，右边三行文字，第一行粗体 16px..."→ 喂给模型 → 出来不对 → 再描述一遍。太累了。

现在的流程：截图 → 丢进去 → "照着写" → 出来不完美 → 圈一下哪里不对 → 它看图改。

这个体验差异，用过的人都懂。

适合什么场景：截图 → 代码、设计稿还原、需要视觉输入的前端任务、长链 Agent 工作流。

MiniMax M2.7：最便宜、最小、最"会带团队"

MiniMax M2.7 是三个模型里参数最小的（230B 总参，只激活 10B/token，激活率 4.3% ），也是推理成本最低的。但它是一个自我进化的模型——在训练阶段，自主管理了 30%-50% 的训练流水线工作。

具体什么意思？模型自己执行了 100+ 轮的"分析失败轨迹 → 修改脚手架代码 → 运行评估"循环，实现了 30% 的性能提升。不是研究员手动调的，是模型自己调的。

这个技术能力延伸到了使用层面，体现为 M2.7 的原生 Agent Teams 能力：

角色锚定：给不同 Agent 分配角色后，它们能稳定保持各自的立场和行为风格
对抗推理：Agent 之间不是互相附和，而是基于各自角色真正辩论
协议遵守：在复杂的多步协作中保持行为一致性

适合什么场景：多 Agent 团队协作、需要跑大量请求的批量任务（成本最低）、办公自动化、需要稳定角色扮演的场景。

实战演示

了解完它们的能力和差异后，来看一下我在实际场中的具体操作。

GLM 5.1——项目重构，自主执行，闭环优化

需求： 让 GLM 5.1 把一个屎山代码从头到尾完全重构。

如下所示，代码真的不忍直视。

  
codingplan-case/glm/  
├── index.js      # 547 行，所有路由+逻辑+中间件全在这  
├── db.js         # 77 行，硬编码密码、单连接无池  
├── helpers.js    # 129 行，工具函数大杂烩  
├── seed.js       # 94 行，种子数据脚本  
├── package.json  # Express 4 + body-parser（过时 ）  
└── README.md

picture.image

于是，我让它自己去重构、测试和修复，下面是 Prompt：

  
这是我很久以前写的一个待办事项项目，是一堆很难维护的屎山代码。请帮我全面升级：  
1. JavaScript → TypeScript（全量类型标注 ）  
2. Express.js → Fastify（中间件改插件，回调改 async/await ）  
3. 裸 SQL → Drizzle ORM + 连接池  
4. 单文件 → 四层目录：routes/ → services/ → repositories/ → models/  
5. 加上 vitest 集成测试，所有 20 个接口行为必须与原版一致  
6. 敏感信息移到 .env，密码做 hash  
写完后自动运行 vitest，不过就自己分析原因并修复，直到全部通过。  
不要问我，自己判断、自己修、自己验证。

在阅读代码之后，它制定了详细的修复计划：

picture.image

并且全程自主执行。

picture.image

改完之后再自主测试，出现问题会自我分析和修复，自主完成闭环。

picture.image

最后，直接交付了可用的结果。

picture.image

这是修改后的项目代码空间，非常规范。

picture.image

Kimi K2.6——直接看录屏和截图复刻复杂网站

需求： 我把一个网站的录屏发给 Kimi K2.6，让它 1:1 复刻。

它完全复刻出了炫酷的动态效果：

它完全能“看懂”这个视频里面的网站，知道里面每一部分分别是什么内容。

picture.image

看懂之后，它制定了详细的计划来复刻：

picture.image

它能够非常准确地把握网站的结构，做出的初版网站，非常不错。

然后，我截了个图直接发给它，让它把这部分动效加上。

picture.image

它瞬间就理解了，并给出了非常好的答案：

picture.image

我又给它录了一个小视频，展示原网站的鼠标跟随动效，它完全能够理解视频的效果，指哪改哪。

picture.image

对比效果：

虽然只是简单地改了两三次，就已经把这个复杂的网站还原得七七八八了。

后续可以精益求精，每个地方都截图让它对照着还原和改动，也可以直接在现在的结构上加上自己的设计，能做出更精美的网站效果。

MiniMax M2.7——原生支持 Agent Team

需求： 我让 MiniMax M2.7 用 Agent Team 来检查现有项目并安全新增功能。

  
项目空间里面有一个工单系统的后端，线上跑了半年多没出过大事。现在产品要加两个功能：  
（1 ）工单转派——把工单从 A 转给 B，要记录转派原因和完整链路；  
（2 ）紧急工单审批流——critical 级别的工单需要主管审批才能关闭。  
  
在动代码加功能之前，我需要你用 Agent Team 模式做一轮全面审查。请配置三个 Agent：  
  
**Security Reviewer**  
- 身份：5 年安全工程经验，参与过多次渗透测试  
- 职责：审查所有安全风险——注入漏洞、认证缺陷、敏感信息泄露、越权访问、文件上传风险、SSRF  
- 输出要求：每个发现标注 CRITICAL/HIGH/MEDIUM/LOW，给出具体攻击场景（"攻击者可以通过 X 实现 Y" ）  
  
**Code Quality Reviewer**  
- 身份：8 年 Python 后端开发，重度 code review 参与者  
- 职责：审查代码质量——重复逻辑、错误处理缺失、类型安全、命名规范、函数职责、性能隐患  
- 输出要求：每个发现给出重构方案和优先级  
  
**Architecture Reviewer**  
- 身份：技术负责人，关注系统可维护性和团队协作效率  
- 职责：评估架构——模块耦合度、职责划分、扩展性瓶颈、配置管理、新功能可加性  
- 输出要求：重点回答"以当前架构，加转派和审批流功能的风险有多大？需要先还哪些技术债？"  
  
请按以下流程执行：  
  
**Step 1 - 独立审查**  
三个 Agent 各自独立审查代码，只关注自己的领域，互不干扰。  
  
**Step 2 - 交叉对抗**  
三个 Agent 看到彼此的审查结果后，针对有争议的点进行讨论：  
- 如果 Security 要求的修复会降低代码可读性，Quality 要提出替代方案  
- 如果 Architecture 建议拆分模块，Quality 要评估拆分的成本收益  
- 如果 Security 和 Architecture 的建议冲突（比如"加验证" vs "在中间件层统一处理" ），要辩论出最优解  
每个 Agent 必须坚持自己的专业立场，不能无条件妥协。  
  
**Step 3 - 统一修复方案**  
综合三方意见，输出一份修复清单：  
- P0（阻塞新功能开发，必须先修 ）  
- P1（不阻塞但有风险，本周内修 ）  
- P2（改进建议，排期处理 ）  
每条标注：问题 → 修复方案 → 主导角色 → 是否影响新功能开发

它按照指令启动了三个不同的 Agent 来审查。

picture.image

三个 Agent 分别专注于自己的任务。

picture.image

三方审查结束后，启动一个协调员来汇总三方审查，解决争议。

picture.image

汇总后，给出了审查结果。

picture.image

接着，我让它进行修复。

  
根据上面的审查报告，请执行所有 P0 修复。  
  
要求：  
1. 输出修改后的完整 app.py  
2. 每个修改处用注释标注 # FIX-P0-{编号}: {简要说明}  
3. 修复后，让 Security Reviewer 做一轮快速复审，确认 P0 问题已解决  
4. 如果修复过程中发现新问题，追加到报告中

同样地，在修复完成后，启用一个 Agent 来做快速复审。

picture.image

确认完全修复后，开始让它新增功能。

  
现在请在修复后的代码基础上，实现"工单转派"功能：  
  
需求：  
- POST /api/tickets/<id>/transfer 接口  
- 参数：target_user_id（目标负责人 ）、reason（转派原因 ）  
- 业务规则：只有当前负责人或管理员可以转派；转派后原负责人变为协作人  
- 记录完整的转派链路（谁 → 谁，什么时间，什么原因 ）  
- 转派后自动添加一条系统评论  
  
完成后，让三个 Agent 再审查一次新增的代码，重点关注：  
- Security：转派接口的权限控制是否充分  
- Quality：转派逻辑和现有 assign 逻辑是否有重复  
- Architecture：转派链路的数据模型是否合理，后续能否支持"转派审批"

功能实现后，继续启用 Agent Team 来进行审查。

picture.image

最后，给了完整的修复清单和功能汇总。

picture.image

然后，我还捞取了所有 Agent 的会话记录，可视化了它们的所有交流过程：

Coding Plan 保姆级配置教程

看到这里，是不是也想立刻体验一下 3 个模型，进行项目重构、复刻网站和检查项目？前提是，要在火山方舟 Coding Plan 中快速接入 Claude Code。以下是我的配置步骤：

快速接入 Claude Code

可参考文档进行配置：

https://www.volcengine.com/docs/82379/1928262?lang=zh#77277ce0

CLI 工具快速配置

步骤 1：安装 Claude Code

在终端执行以下命令安装 Claude Code。

  
npm install -g @anthropic-ai/claude-code

picture.image

验证安装：

  
claude --version

显示版本号即成功。

picture.image

步骤 2 省心版：自动化助手配置

Ark Helper 是一个编码工具助手，支持快速配置选择的工具接入 Coding Plan。安装并运行该助手，根据界面提示操作可自动完成工具配置，能降低手动配置的时间成本和出错风险。

注意

Ark Helper 仅支持 MacOS、Linux 系统，暂不支持 Windows 系统。
以下配置步骤及截图为 Ark Helper 首次使用指引；非首次使用请按界面提示完成套餐配置和工具配置。

执行以下命令安装 Ark Helper。

  
curl -fsSL https://lf3-static.bytednsdoc.com/obj/eden-cn/ylwslo-yrh/ljhwZthlaukjlkulzlp/install.sh | sh

安装完成后，执行以下命令查看安装的版本号。

  
ark-helper --version

在命令行界面输入 ark-helper 命令，启动 Ark Helper。

picture.image

根据界面提示完成套餐配置。

a. 选择要配置的套餐：[Volcano] Volcano Engine（国内）。

picture.image

b. 配置 API Key：获取 API Key

https://console.volcengine.com/ark/region:ark+cn-beijing/apikey

picture.image

c. 选择默认模型。

picture.image

根据界面提示完成 Claude Code 工具配置。

a. 选择要配置的编码工具：Claude Code。

picture.image

b. 选择设置 Volcano 配置到 Claude Code，配置完成后，选择退出。如果需要重新配置工具，可先选择卸载 Claude Code 配置，再重新执行配置流程。

picture.image

步骤 2 高级版：手动配置

需修改 2 个配置文件（替换 <ARK_API_KEY> 为你的 API Key：https://console.volcengine.com/ark/region:ark+cn-beijing/apikey ）

1. settings.json （路径根据系统选择）

Mac/Linux：~/.claude/settings.json
Windows：C:\Users<用户名>.claude\settings.json

  
{  
    "env": {  
        "ANTHROPIC_AUTH_TOKEN": "<ARK_API_KEY>",  
        "ANTHROPIC_BASE_URL": "https://ark.cn-beijing.volces.com/api/coding",  
        "ANTHROPIC_DEFAULT_HAIKU_MODEL": "minimax-m2.7",  
        "ANTHROPIC_DEFAULT_SONNET_MODEL": "kimi-k2.6",  
        "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1"  
    }  
}

picture.image

2. .claude.json （路径根据系统选择）

MacOS & Linux：~/.claude.json
Windows：C:\Users<用户名>.claude.json

  
{  
  "hasCompletedOnboarding": true  
}

picture.image

步骤 3：启动验证

打开新的终端窗口执行后续命令

  
cd <你的项目文件夹路径>  
claude

选择允许访问文件后，输入 /status 看到模型配置即成功！

picture.image

切换模型：

启动时：执行 claude --model <Model_Name>，可指定对应的模型。
对话期间：执行 /model <Model_Name> 切换模型。

支持模型列表：

doubao-seed-2.0-code
doubao-seed-2.0-pro
doubao-seed-2.0-lite
doubao-seed-code
minimax-m2.7
minimax-m2.5
glm-5.1
glm-4.7
deepseek-v3.2
kimi-k2.6
kimi-k2.5

IDE 工具快速配置

Claude Code IDE 插件依赖 Claude Code CLI 工具，需先完成上一步 Claude Code CLI 的安装及配置。

推荐在 TRAE CN 中使用 Claude Code 插件：

Claude Code VSCode 插件支持在 VSCode 及基于 VSCode 的 IDE（如 Cursor ）中使用。

步骤 1：安装 TRAE IDE

在 TRAE CN (https://www.trae.cn/) 官网下载最新版 TRAE IDE。

picture.image

步骤 2：安装 Claude Code IDE 插件

安装好后，打开扩展商店，搜索 Claude Code for VS Code 插件并安装。

picture.image

插件安装完成之后点击右上角的 Claude Code 图表进入对话页面。

picture.image

步骤 3：配置环境变量

在 Claude Code 对话框中输入/config，选择 General config... 进入配置页面。

picture.image

在 Claude Code: Environment Variables 区域单击 Edit in settings.json，修改 claudeCode.environmentVariables、claudeCode.selectedModel。

picture.image

  
...  
"claudeCode.selectedModel": "<Model_Name>",  
"claudeCode.environmentVariables": [  
    {  
        "name": "ANTHROPIC_BASE_URL",  
        "value": "https://ark.cn-beijing.volces.com/api/coding"  
    },  
    {  
        "name": "ANTHROPIC_AUTH_TOKEN",  
        "value": "<ARK_API_KEY>"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_SONNET_MODEL",  
        "value": "kimi-k2.6"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_OPUS_MODEL",  
        "value": "glm-5.1"  
    },  
    {  
        "name": "ANTHROPIC_DEFAULT_HAIKU_MODEL",  
        "value": "minimax-m2.7"  
    }  
]  
...

picture.image

保存配置信息之后，就能在 TRAE IDE 中使用 Claude Code + Coding Plan。

总结一下，火山方舟 Coding Plan 更像一个“工程工具”，已经涵盖了国内的主流模型，如果需要“闭环能力”的项目就选 GLM 5.1，要用到原生多模态选 Kimi K2.6，多 Agent 团队协作就用 MiniMax M2.7。根据上面的教程配置好，就能在 Coding Plan 里开始全新体验！

欢迎订阅火山方舟 Coding Plan，多模型随心用，养虾更划算。

关注公众号回复：ArkClaw 攻略 ，领取“养虾宝典”，开启 AI 进化之旅。