Anthropic 让 Claude 自己写代码，结果它跑到一半直接摆烂：我觉得差不多了，完工！ - 文章 - 开发者社区

最近Harness比较火🔥🔥🔥，总计一下

1. AI Coding 的真正瓶颈不是模型，是 Harness 架构。

Harness 是什么？就是包裹 LLM 的那层运行时基础设施。模型本身是个无状态的 token 预测器，Harness 负责让它真正能干活。
一个完整的 Harness 要处理六件事：
1）Loop 控制：驱动模型反复调用、解析输出、执行工具调用、把结果喂回去，决定什么时候停
2）工具调用分发：把模型的请求路由到实际能力上（代码执行、搜索、API、MCP server）
3）Context 管理：系统 prompt、对话历史、检索文档，以及上下文快满时的压缩和摘要
4）状态与记忆：scratchpad、任务列表、跨 session 的短期和长期记忆
5）控制流：重试、超时、最大步数限制、预算上限、停止条件
6）安全与可观测性：guardrail、权限检查、审批门控、日志和 tracing
本质上是：Harness 是 AI agent 的操作系统，模型只是 CPU。

picture.image

2. Anthropic 自己踩过的坑：

他们让 Claude Opus 4.5 在 loop 里跑多个 context window、自主构建 claude.ai 克隆，失败模式有两个：
1）模型想一次搞定所有功能，context 跑到一半就满了，下一个 session 接手时只看到半拉子代码，不知道发生了什么。
2）后期某个 session 环顾四周，觉得差不多了，直接宣告任务完成。

解法是两阶段 Harness：
1）Initializer agent：第一个 session 专门建环境——生成 init.sh、feature list（200+ 条功能点全部标 failing）、初始 git commit
2）Coding agent：后续每个 session 只做一件事，做完必须提交 git、更新进度文件，保持代码处于可以合并到 main的干净状态
他们还发现模型存在context anxiety——上下文快满时会提前收工。Compaction（压缩历史继续跑）无法解决这个问题，必须用 context reset（清空上下文、新建 agent 接手、通过结构化 handoff artifact 传递状态）。

picture.image

对了。顺嘴提一句，技术大厂，前后端-测试机会，全国一线及双一线城市均有[坑位]，待遇和稳定性还不错，感兴趣看看。

3. 进阶版：三 agent 架构

两 agent 版本跑一段时间后，又遇到新问题：模型评价自己写的代码会系统性地偏乐观，明显有问题的设计也会说"挺好的"。
解法是引入第三个角色——Evaluator agent，独立于 Generator 存在。
架构变成：
1）Planner：分解任务，生成结构化 feature list
2）Generator：逐条实现功能
3）Evaluator：用一套预先定义好的打分标准（设计质量、原创性、工艺、功能性）独立评审，给出具体反馈

本质上是把 GAN 的对抗结构引入了 coding agent。关键是 Evaluator 需要被单独调教成苛刻——让一个 LLM 批评另一个 LLM 的输出，比让同一个 LLM 自我批评要容易得多。

——转载自黄建同学