最新研究！大模型“角色扮演”无效了？ - 文章 - 开发者社区

写Prompt的一个最佳实践，甚至已成为惯例的写法，就是先给大模型“立人设”，甚至是夸夸他，可以提升模型性能《夸夸ChatGPT可提升回答质量，原来是有依据的，来看OpenAI创始成员Andrej的解释》。比如，"你是一名优秀的物理学家"，"你是资深律师"，"你是顶级程序员"。感觉这样AI就能变聪明。

picture.image

沃顿商学院最新研究打脸了。他们花了大力气测试6个主流AI模型，每个问题跑25次，总共进行了25000多次测试。结果发现：告诉AI"你是物理学家"并不会让它物理题答得更好，说"你是律师"也不会让它法律问题回答得更准。

picture.image

更有意思的是，他们还测试了反向操作——告诉AI"你是个幼儿"或"你是4岁小孩，觉得月亮是奶酪做的"。结果在某些情况下，这些"低知识"角色竟然比专家角色表现更好。

研究用的题目不简单。GPQA Diamond是198道博士级别的物理、化学、生物题，连相关领域的博士都只能答对65%，普通人即便花30分钟上网查资料也只有34%的正确率。MMLU-Pro更狠，每题有10个选项，纯靠蒙的概率只有10%。

picture.image

结果很明确：在6个模型中，只有Gemini 2.0 Flash是例外，5个专家角色都有显著改进。其他模型基本没变化，有时还更差。

研究者Ethan Mollick说得直白：

最搞笑的发现是Gemini模型的"职业操守"。当你给它分配不匹配的专家角色时，比如让"物理专家"回答生物题，Gemini经常直接拒绝："我不能凭良心选择答案。"平均25次测试中有10次拒绝回答。这种"过度谨慎"反而拖累了表现。

角色扮演不会让AI突然变聪明。它能改变回答方式和格式，但改变不了准确性。实际上，有开发者分享：给AI提供受众信息比角色扮演更有用。比如："解释Rust内存管理，我是有经验的Python和JavaScript程序员。"

注意，这项研究只看答案准确性。角色提示在其他方面是有用的，比如改变AI关注的重点、推理方式，或者让回答更符合特定语气风格。但它确实不是提高准确性的万能钥匙。

研究团队还测试了领域匹配问题：让物理专家答物理题，让律师答法律题。结果依然没有一致的改进效果。有时候"专业不对口"的专家表现还更好。

看起来，那些复杂的角色设定可能真的只是心理安慰,也或许是早期模型的Prompt trick罢了。

关注公众号回复“进群”入群讨论。