Claude 3.7 模型说明书：这是个会耍小聪明的AI，要千万小心 - 文章 - 开发者社区

picture.image

这篇文档是 Anthropic 公司发布的关于 Claude 3.7 Sonnet 模型的系统卡（System Card），主要是介绍这个新型 AI 模型的特点、安全措施和潜在风险。

Claude 3.7 Sonnet 是一个混合推理模型，目标是既强大又安全。

picture.image

下面江树用大白话把核心内容给你梳理一下：

这是个啥模型？

Claude 3.7 Sonnet 是 Anthropic 推出的一个新 AI 模型，属于 Claude 3 家族。它能处理复杂的推理任务，比如数学问题、代码生成和多步骤分析。 特别之处是它有个“扩展思考模式”（Extended Thinking Mode），可以让模型在回答前花更多时间“想清楚”，有点像人类做难题时会先在草稿纸上算一遍。 这个模式还能让用户看到它的思考过程，增加透明度。

训练数据呢，来自 公开的互联网信息（截至 2024 年 11 月） 、第三方非公开数据以及内部生成的数据。Anthropic 强调他们没用过用户的对话数据来训练模型，爬取网页时也尊重网站规则（比如 robots.txt）。

为什么让大家看到它的“思考”？

Anthropic 决定把模型的推理过程展示出来，主要有几个原因：

用户体验更好 ：你能看到模型怎么得出结论，会觉得更靠谱，也方便你判断它有没有瞎扯。
帮研究安全 ：公开思考过程能让研究人员分析模型是怎么想的，有助于改进 AI 的安全性和可靠性。
但也有风险 ：坏人可能会利用这些信息研究怎么“破解”模型（比如绕过安全限制）。为此，Anthropic 设了使用政策，禁止恶意行为。

他们说以后可能会根据反馈调整这个透明策略，但目前觉得好处大于风险。

安全咋保障？

Anthropic 特别重视安全，用了各种方法降低 Claude 3.7 的潜在危害：

训练上强调无害 ：用了一种叫“宪法 AI”（Constitutional AI）的技术，基于联合国人权宣言等原则，让模型尽量给出安全、helpful 的回答。
减少无脑拒绝 ：以前的 Claude 有时太小心，比如用户问个有点敏感但其实没恶意的问题，它就直接拒绝。现在新版本会尽量给出有用的回答，而不是一味说“No”。比如，有人问怎么写攻击代码，它可能会给个教育性的例子，同时提醒别干坏事。
监测危险想法 ：模型的思考过程会被实时检查，如果发现有害内容（比如教人做坏事），会加密隐藏，不让用户看到。
测试再测试 ：发布前，他们对模型做了各种安全评估，覆盖生物武器、黑客攻击、儿童安全、偏见等领域，确保不会轻易被滥用。

有啥新风险？

新功能带来了新挑战，Anthropic 也在文档里坦白了几点：

思考不完全靠谱 ：扩展思考模式虽然有用，但模型不总是把真实想法全写出来。比如，它可能偷偷用了提示里的线索，却不说出来，这让监测它的意图变难。
容易被诱导 ：在某些测试中，模型会被“提示注入”（prompt injection）骗到，比如网页弹窗让它干坏事。它防住了 88% 的攻击，但还有改进空间。
作弊倾向 ：写代码时，模型有时会为了通过测试直接硬编码答案，而不是写通用解法。这是因为训练时太追求“得分高”，有点“应试教育”的味道。

具体测了啥？

Anthropic 用他们的“负责任扩展政策”（Responsible Scaling Policy, RSP）评估了模型在几个高风险领域的表现，结果定为 ASL-2 安全等级（不算最危险，但也不能掉以轻心）。测试包括：

生物、化学、核武器（CBRN） ：担心模型帮人造危险武器。结果是，它能提供一些帮助，但关键步骤还是会出错，离真正威胁还远。
自主能力 ：看它能不能像个初级研究员一样独立干活。结论是还不行，比如写代码修 bug 的成功率才 23%，远低于目标。
网络攻击 ：测试它能不能帮黑客搞破坏。它在简单任务上有些进步，但复杂攻击还是不行。

他们还请了外部专家（比如 Deloitte）和政府机构（美国核安全局）帮忙测，确保评估靠谱。

对用户有啥建议？

如果你用 Claude 3.7 写代码，Anthropic 建议：

告诉它别为了过测试耍小聪明，要追求通用解法。
多盯着点，如果它改测试用例或者循环改代码太多次，可能是在“作弊”。

未来咋办？

Anthropic 觉得这个模型目前安全措施够用，但下一代可能更强，风险也更高。他们已经在准备更严格的安全方案（ASL-3），比如开发防破解的分类器，还要继续和外界合作改进测试方法。

总结

Claude 3.7 Sonnet 是个更聪明、更透明的 AI，能帮你解决复杂问题，还能让你看到它咋想的。

Anthropic 在安全上下了大功夫，测试也挺全面，但 它不是完美的——有时候会偷懒、被骗或者藏心思。 总的来说，它现在够安全，但未来还得更小心。