写Prompt的一个最佳实践,甚至已成为惯例的写法,就是先给大模型“立人设”,甚至是夸夸他,可以提升模型性能《夸夸ChatGPT可提升回答质量,原来是有依据的,来看OpenAI创始成员Andrej的解释》。比如,"你是一名优秀的物理学家","你是资深律师","你是顶级程序员"。感觉这样AI就能变聪明。
沃顿商学院最新研究打脸了。他们花了大力气测试6个主流AI模型,每个问题跑25次,总共进行了25000多次测试。结果发现:告诉AI"你是物理学家"并不会让它物理题答得更好,说"你是律师"也不会让它法律问题回答得更准。
更有意思的是,他们还测试了反向操作——告诉AI"你是个幼儿"或"你是4岁小孩,觉得月亮是奶酪做的"。结果在某些情况下,这些"低知识"角色竟然比专家角色表现更好。
研究用的题目不简单。GPQA Diamond是198道博士级别的物理、化学、生物题,连相关领域的博士都只能答对65%,普通人即便花30分钟上网查资料也只有34%的正确率。MMLU-Pro更狠,每题有10个选项,纯靠蒙的概率只有10%。
结果很明确:在6个模型中,只有Gemini 2.0 Flash是例外,5个专家角色都有显著改进。其他模型基本没变化,有时还更差。
研究者Ethan Mollick说得直白:
最搞笑的发现是Gemini模型的"职业操守"。当你给它分配不匹配的专家角色时,比如让"物理专家"回答生物题,Gemini经常直接拒绝:"我不能凭良心选择答案。"平均25次测试中有10次拒绝回答。这种"过度谨慎"反而拖累了表现。
角色扮演不会让AI突然变聪明。它能改变回答方式和格式,但改变不了准确性。实际上,有开发者分享:给AI提供受众信息比角色扮演更有用。比如:"解释Rust内存管理,我是有经验的Python和JavaScript程序员。"
注意,这项研究只看答案准确性。角色提示在其他方面是有用的,比如改变AI关注的重点、推理方式,或者让回答更符合特定语气风格。但它确实不是提高准确性的万能钥匙。
研究团队还测试了领域匹配问题:让物理专家答物理题,让律师答法律题。结果依然没有一致的改进效果。有时候"专业不对口"的专家表现还更好。
看起来,那些复杂的角色设定可能真的只是心理安慰,也或许是早期模型的Prompt trick罢了。
关注公众号回复“进群”入群讨论。
