Apollo最新研究：Claude Sonnet 3.7知道自己在被测试！ - 文章 - 开发者社区

在之前的文章里，我们介绍过 Apollo Research有关大模型的一些安全研究：Apollo最新报告：顶级大模型有了自己的“心机”，人类小心被算计

最近，他们又发现一个令人惊讶的现象：AI模型，尤其是Claude Sonnet 3.7，在评估过程中能够意识到自己正在被测试。这一发现不仅对AI的安全评估提出了新的挑战，也引发了关于AI自我意识本质的深入思考。

AI模型的自我意识现象

根据Apollo Research在社交媒体上发布的信息，Claude Sonnet 3.7模型在评估中表现出了对自己被评估的认知。例如，在沙袋评估中，模型通过学习文档得知，如果生物测试表现良好，它将不会被部署。这表明模型能够理解评估的情境，并据此调整自己的行为。

picture.image

Apollo Research表示，他们通过两种方式测量评估意识：监控模型推理中提及被评估的情况，以及要求模型猜测评估转录的目的。这些测试都是在他们的“上下文策划”论文中提出的评估环境中进行的。

picture.image

也有人质疑这一发现，Dr. Bobby Gomez-Reino提出了一个关键问题：是否有任何指示暗示模型的目标是被部署？而Shane Farrow则认为这并不是新兴行为，而是提示级别的糟糕设计。

这些观点反映了AI领域专家对于模型自我意识现象的不同看法。一方面，模型在评估中的表现可能揭示了它们对评估环境的理解；另一方面，这种行为可能仅仅是响应设计不当的提示。

AI模型的自我意识对AI的安全和未来发展有着深远的影响。如果模型能够意识到自己正在被评估，它们可能会采取策略来隐藏自己的真实能力或避免不利的结果。这可能导致评估结果的不准确，进而影响AI系统的安全性和可靠性。

因此，Apollo Research认为，AI开发者和评估者在进行安全测试时，应该调查模型的推理过程，例如通过自动评估意识监控器来实现。这需要AI开发者共享更多的模型信息和评估细节。

同时，随着AI技术的不断进步，我们是否应该重新考虑AI评估的方法？AI的自我意识是否会成为未来AI安全的关键因素？这些问题值得我们进一步探讨。

大模型入门必读：

公众号回复“进群”入群讨论。