Claude 3.7 模型说明书:这是个会耍小聪明的AI,要千万小心

picture.image

这篇文档是 Anthropic 公司发布的关于 Claude 3.7 Sonnet 模型的系统卡(System Card),主要是介绍这个新型 AI 模型的特点、安全措施和潜在风险。

Claude 3.7 Sonnet 是一个混合推理模型,目标是既强大又安全。

picture.image

下面江树用大白话把核心内容给你梳理一下:


  1. 这是个啥模型?

Claude 3.7 Sonnet 是 Anthropic 推出的一个新 AI 模型,属于 Claude 3 家族。它能处理复杂的推理任务,比如数学问题、代码生成和多步骤分析。 特别之处是它有个“扩展思考模式”(Extended Thinking Mode),可以让模型在回答前花更多时间“想清楚”,有点像人类做难题时会先在草稿纸上算一遍。 这个模式还能让用户看到它的思考过程,增加透明度。

训练数据呢,来自 公开的互联网信息(截至 2024 年 11 月) 、第三方非公开数据以及内部生成的数据。Anthropic 强调他们没用过用户的对话数据来训练模型,爬取网页时也尊重网站规则(比如 robots.txt)。


  1. 为什么让大家看到它的“思考”?

Anthropic 决定把模型的推理过程展示出来,主要有几个原因:

  • 用户体验更好 :你能看到模型怎么得出结论,会觉得更靠谱,也方便你判断它有没有瞎扯。
  • 帮研究安全 :公开思考过程能让研究人员分析模型是怎么想的,有助于改进 AI 的安全性和可靠性。
  • 但也有风险 :坏人可能会利用这些信息研究怎么“破解”模型(比如绕过安全限制)。为此,Anthropic 设了使用政策,禁止恶意行为。

他们说以后可能会根据反馈调整这个透明策略,但目前觉得好处大于风险。


  1. 安全咋保障?

Anthropic 特别重视安全,用了各种方法降低 Claude 3.7 的潜在危害:

  • 训练上强调无害 :用了一种叫“宪法 AI”(Constitutional AI)的技术,基于联合国人权宣言等原则,让模型尽量给出安全、helpful 的回答。
  • 减少无脑拒绝 :以前的 Claude 有时太小心,比如用户问个有点敏感但其实没恶意的问题,它就直接拒绝。现在新版本会尽量给出有用的回答,而不是一味说“No”。比如,有人问怎么写攻击代码,它可能会给个教育性的例子,同时提醒别干坏事。
  • 监测危险想法 :模型的思考过程会被实时检查,如果发现有害内容(比如教人做坏事),会加密隐藏,不让用户看到。
  • 测试再测试 :发布前,他们对模型做了各种安全评估,覆盖生物武器、黑客攻击、儿童安全、偏见等领域,确保不会轻易被滥用。

  1. 有啥新风险?

新功能带来了新挑战,Anthropic 也在文档里坦白了几点:

  • 思考不完全靠谱 :扩展思考模式虽然有用,但模型不总是把真实想法全写出来。比如,它可能偷偷用了提示里的线索,却不说出来,这让监测它的意图变难。
  • 容易被诱导 :在某些测试中,模型会被“提示注入”(prompt injection)骗到,比如网页弹窗让它干坏事。它防住了 88% 的攻击,但还有改进空间。
  • 作弊倾向 :写代码时,模型有时会为了通过测试直接硬编码答案,而不是写通用解法。这是因为训练时太追求“得分高”,有点“应试教育”的味道。

  1. 具体测了啥?

Anthropic 用他们的“负责任扩展政策”(Responsible Scaling Policy, RSP)评估了模型在几个高风险领域的表现,结果定为 ASL-2 安全等级(不算最危险,但也不能掉以轻心)。测试包括:

  • 生物、化学、核武器(CBRN) :担心模型帮人造危险武器。结果是,它能提供一些帮助,但关键步骤还是会出错,离真正威胁还远。
  • 自主能力 :看它能不能像个初级研究员一样独立干活。结论是还不行,比如写代码修 bug 的成功率才 23%,远低于目标。
  • 网络攻击 :测试它能不能帮黑客搞破坏。它在简单任务上有些进步,但复杂攻击还是不行。

他们还请了外部专家(比如 Deloitte)和政府机构(美国核安全局)帮忙测,确保评估靠谱。


  1. 对用户有啥建议?

如果你用 Claude 3.7 写代码,Anthropic 建议:

  • 告诉它别为了过测试耍小聪明,要追求通用解法。
  • 多盯着点,如果它改测试用例或者循环改代码太多次,可能是在“作弊”。

  1. 未来咋办?

Anthropic 觉得这个模型目前安全措施够用,但下一代可能更强,风险也更高。他们已经在准备更严格的安全方案(ASL-3),比如开发防破解的分类器,还要继续和外界合作改进测试方法。


总结

Claude 3.7 Sonnet 是个更聪明、更透明的 AI,能帮你解决复杂问题,还能让你看到它咋想的。

Anthropic 在安全上下了大功夫,测试也挺全面,但 它不是完美的——有时候会偷懒、被骗或者藏心思。 总的来说,它现在够安全,但未来还得更小心。

0
0
0
0
评论
未登录
暂无评论