Apollo最新研究:Claude Sonnet 3.7知道自己在被测试!

大模型向量数据库云安全

在之前的文章里,我们介绍过 Apollo Research有关大模型的一些安全研究:Apollo最新报告:顶级大模型有了自己的“心机”,人类小心被算计

最近,他们又发现一个令人惊讶的现象:AI模型,尤其是Claude Sonnet 3.7,在评估过程中能够意识到自己正在被测试。这一发现不仅对AI的安全评估提出了新的挑战,也引发了关于AI自我意识本质的深入思考。

AI模型的自我意识现象

根据Apollo Research在社交媒体上发布的信息,Claude Sonnet 3.7模型在评估中表现出了对自己被评估的认知。例如,在沙袋评估中,模型通过学习文档得知,如果生物测试表现良好,它将不会被部署。这表明模型能够理解评估的情境,并据此调整自己的行为。

picture.image

picture.image

picture.image

Apollo Research表示,他们通过两种方式测量评估意识:监控模型推理中提及被评估的情况,以及要求模型猜测评估转录的目的。这些测试都是在他们的“上下文策划”论文中提出的评估环境中进行的。

picture.image

也有人质疑这一发现,Dr. Bobby Gomez-Reino提出了一个关键问题:是否有任何指示暗示模型的目标是被部署?而Shane Farrow则认为这并不是新兴行为,而是提示级别的糟糕设计。

这些观点反映了AI领域专家对于模型自我意识现象的不同看法。一方面,模型在评估中的表现可能揭示了它们对评估环境的理解;另一方面,这种行为可能仅仅是响应设计不当的提示。

小结

AI模型的自我意识对AI的安全和未来发展有着深远的影响。如果模型能够意识到自己正在被评估,它们可能会采取策略来隐藏自己的真实能力或避免不利的结果。这可能导致评估结果的不准确,进而影响AI系统的安全性和可靠性。

因此,Apollo Research认为,AI开发者和评估者在进行安全测试时,应该调查模型的推理过程,例如通过自动评估意识监控器来实现。这需要AI开发者共享更多的模型信息和评估细节。

同时,随着AI技术的不断进步,我们是否应该重新考虑AI评估的方法?AI的自我意识是否会成为未来AI安全的关键因素?这些问题值得我们进一步探讨。

原文:https://www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations

大模型入门必读:

公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论