最新研究!大模型“角色扮演”无效了?

大模型机器学习算法

写Prompt的一个最佳实践,甚至已成为惯例的写法,就是先给大模型“立人设”,甚至是夸夸他,可以提升模型性能《夸夸ChatGPT可提升回答质量,原来是有依据的,来看OpenAI创始成员Andrej的解释》。比如,"你是一名优秀的物理学家","你是资深律师","你是顶级程序员"。感觉这样AI就能变聪明。

picture.image

沃顿商学院最新研究打脸了。他们花了大力气测试6个主流AI模型,每个问题跑25次,总共进行了25000多次测试。结果发现:告诉AI"你是物理学家"并不会让它物理题答得更好,说"你是律师"也不会让它法律问题回答得更准。

picture.image

更有意思的是,他们还测试了反向操作——告诉AI"你是个幼儿"或"你是4岁小孩,觉得月亮是奶酪做的"。结果在某些情况下,这些"低知识"角色竟然比专家角色表现更好。

研究用的题目不简单。GPQA Diamond是198道博士级别的物理、化学、生物题,连相关领域的博士都只能答对65%,普通人即便花30分钟上网查资料也只有34%的正确率。MMLU-Pro更狠,每题有10个选项,纯靠蒙的概率只有10%。

picture.image

结果很明确:在6个模型中,只有Gemini 2.0 Flash是例外,5个专家角色都有显著改进。其他模型基本没变化,有时还更差。

研究者Ethan Mollick说得直白:

最搞笑的发现是Gemini模型的"职业操守"。当你给它分配不匹配的专家角色时,比如让"物理专家"回答生物题,Gemini经常直接拒绝:"我不能凭良心选择答案。"平均25次测试中有10次拒绝回答。这种"过度谨慎"反而拖累了表现。

角色扮演不会让AI突然变聪明。它能改变回答方式和格式,但改变不了准确性。实际上,有开发者分享:给AI提供受众信息比角色扮演更有用。比如:"解释Rust内存管理,我是有经验的Python和JavaScript程序员。"

注意,这项研究只看答案准确性。角色提示在其他方面是有用的,比如改变AI关注的重点、推理方式,或者让回答更符合特定语气风格。但它确实不是提高准确性的万能钥匙。

研究团队还测试了领域匹配问题:让物理专家答物理题,让律师答法律题。结果依然没有一致的改进效果。有时候"专业不对口"的专家表现还更好。

看起来,那些复杂的角色设定可能真的只是心理安慰,也或许是早期模型的Prompt trick罢了。

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论