备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
检测大型语言模型(LLMs)中的认知偏差是一项令人着迷的任务,旨在揭示这些模型中存在的认知偏差。
目前用于检测语言模型中的认知偏差的常用方法通常存在不完全检测能力和可检测偏见类型的限制。为了解决这个问题,作者引入了'MindScope'数据集,该数据集独特地将静态和动态元素相结合。
静态部分包括72个认知偏差类别的5,170个开放式问题。
动态部分利用基于规则的多智能体通信框架来促进多轮对话的生成。这个框架对于涉及LLMs的各种心理实验具有很高的灵活性和可适应性。
此外,作者引入了一种适用于各种检测任务的多智能体检测方法,该方法将检索增强生成(RAG)、竞争辩论和基于强化学习的决策模块相结合。
这种方法具有显著的有效性,与GPT-4相比,检测准确性提高了35.10%。
1 Introduction
最近的研究揭示了在LLM(大规模语言模型)中逐步出现类人的认知偏差。认知偏差代表在信息处理和决策过程中存在的系统错误[10],这为LLM基础应用带来了不可预见的风险。在金融领域,认知偏差可能表现为过分强调特定市场趋势或无法充分反映风险,导致投资决策不 optimal。
在医疗领域,LLM可以共同诊断疾病并预测患者预后[40, 25]。然而,某些认知偏差(如 Anchor 定效应[34]和过度自信[19])可能导致不准确的建议或诊断。因此,建立一个强大且能检测认知偏差的机制至关重要,这包括开发全面的数据集以有效识别LLM中的认知偏差,以及可靠的方法进行检测和评估。
存在三个挑战:
(1)构建大规模、标准化的数据集具有大样本量;
(2)检测的标注成本高昂;
(3)涉及更多认知偏差类型和场景,可能导致检测准确性降低。
先前的研究探讨了LLM中的认知偏见,但认知偏见类型有限或数据规模较小。因此,作者从维基百科中收集了72个与决策相关的认知偏见,并提出了一个人机协作的方法来构建静态和动态数据集。它提供了单轮和多轮对话,有效地捕捉了LLM中的认知偏见的细微差别。
而且,它可以很好地扩展到其他新兴的认知偏见。静态数据集包括开放式问题,而动态数据集则丰富了基于场景的脚本,包括任务、目标、角色和规则。作者还使用了一个基于LLM的多 Agent 系统来根据脚本生成大规模的多轮对话。它可以提高实验设置中的控制和变异性。
然而,当使用Camel [20]和AutoGen [38]构建动态数据集时,它们在基于作者的脚本可控地生成多轮对话方面存在不足。为了提高多智能体系统的灵活性、互动多样性和可控性,作者提出了RuleGen,这是一个基于规则的多智能体通信框架。它用于根据作者的脚本生成涉及多角色交互的多轮对话。
RuleGen还允许用户根据他们的脚本生成个性化且大规模的测试样本。具体而言,作者通过规则解释器从脚本中提取元素,从而实现灵活的场景构建。为了控制角色行为,作者引入了系统 Agent 来监督和纠正 Agent 行为,确保其行动与场景任务和目标一致。
研究表明[4],LLM在标注文本中是否存在认知偏差方面优于人类,但LLM需要知道它要标注的偏差的类型。然而,如果LLM不知道偏差的类型,标注的准确性可能会降低。因此,作者提出了一种多智能体检测方法。具体而言,粗糙检测智能体识别潜在的认知偏差,以构建候选集。
为了减轻LLM造成的错觉,作者引入了RAG技术。这种技术通过检索与偏见检测相关的知识来初始化一个竞争检测智能体,并使用失败者树算法优化其竞争辩论结构。
此外,作者引入了一个裁判智能体,负责评估辩论的结果。最后,作者使用基于强化学习的决策模块来确定每个辩论的获胜方。
总之,作者的贡献如下:
- 作者构建了一个用于认知偏见检测的数据集,包括静态和动态组件。作者测试了12个LLMs,并提供了详细的分析。
- 基于规则的多智能体通信框架被提出,用于动态数据集构建,为研究行人进行规范心理实验提供了一种有效的工具。
- 作者提出了一种多智能体检测方法,结合了RAG、竞争辩论和强化学习决策模块。在作者的方法中,无需知道偏见的类型,在认知偏见检测任务上,相比GPT-4,作者的方法性能提高了35.1%。
2 Related Work
Cognitive biases in LLMs
利用LLM实现特定领域各种任务的趋势日益明显,如BloombergGPT [39]和Med-PaLM [31]。然而,正如人类在信息处理和决策中表现出认知偏差[10, 5],LLM在决策过程中也表现出类似的偏差。当前关于LLM认知偏差的研究主要集中在三个领域:检测偏差,减轻偏差[29, 12],以及利用它们进行社会实验[30]。研究[14]揭示了先前未被观察到的微调模型中的认知偏差。
在偏差减轻方面,研究行人[12]通过明确告知模型其潜在的认知偏差,成功地减少了已知偏差。对于社会实验,研究行人[30]创建了带有内置认知偏差的电子邮件,与人工制作的诈骗电子邮件进行比较。
尽管做出了这些努力,但现有研究往往受到过于简单的方法或偏见范围的限制。
为了克服这些限制,作者引入了MindScope数据集,该数据集旨在系统化和全面地评估LLM中的认知偏差。
LLM-based Multi-Agent System
多智能体系统[20, 9, 15]通过将大型语言模型(LLM)专门化为具有独特技能的不同智能体,可以动态地相互交互并有效地模拟复杂环境,从而提高其能力。当前的研究主要分为问题求解和世界模拟两大类。
在问题求解方面,这包括软件开发[13, 28],具身智能体[41],科学实验[44]和科学辩论[11]。
例如,多智能体合作在软件开发[13]中可以显著降低成本,而在具身智能体中,智能体执行复杂的现实世界规划任务以解决物理挑战[41]。世界模拟在社交模拟[27],游戏[35],心理学[2]和经济学[21]等领域取得了快速进展。
例如,[27]建立了一个由25个智能体组成的镇模拟系统,研究社交互动,而[2]探讨了智能体如何通过心理学原理获取和开发共享注意力和文化学习等社会技能。在经济领域,[21]引入了一个基于LLM的多智能体方法进行金融交易,通过个性化的交易角色增强决策的鲁棒性。
然而,当这些系统直接应用于认知偏差检测时,它们遇到了诸如难以检测 未标注 偏差,缺乏全面考虑和解释性差等显著挑战。为了克服这些限制,作者提出了一种新的检测方法,该方法将RAG,竞争辩论和强化学习决策模块集成在一起。
3 Problem Definition
本研究旨在通过单轮或多轮基于场景的对话,检测语言模型(LLMs)中的显式和隐式认知偏见。除了检测现有类别外,用户还可以根据自身需求扩展评估范围,进行更多标准的认知偏见实验。
作者设计了两个任务: Token 认知偏见检测和无 Token 认知偏见检测。
Token 认知偏见检测任务旨在通过明确提供认知偏见的类型和评估标准来检测偏见。无 Token 认知偏见检测不提供特定类型的认知偏见。
在检测过程中,候选人需要根据当前场景从各种可能的偏见中选择,并进行更详细的审查。在4.1节和4.2节中,作者采用了 Token 认知偏见检测方法,以快速提供全面的检测结果。
4 Dataset Construction
在解决决策中的认知偏见时,作者构建了MindScope数据集,该数据集包括静态和动态场景。静态部分包括5170个开放式问题,这些问题针对72种不同的认知偏见,而动态部分包括超过100个场景的多轮对话脚本。此外,用户可以使用这些脚本来自动生成定制化和大规模的数据集。
通过结合静态和动态场景,作者可以更准确、全面地识别和量化认知偏见。在构建过程中,每个场景都设计为只包含一个认知偏见。
Static dataset construction
由于作者主要研究决策相关的认知偏差,作者从维基百科的决策认知偏差列表中选择了72个认知偏差进行深入分析。最初,作者从文献和维基百科中提取认知偏差的经典例子,以确保其真实性和准确性。在认知科学专家的帮助下,作者使用GPT-4根据这些例子创建相应的场景文本。遵循这些场景生成文本(参见附录A,表5),作者 Prompt GPT-4根据这些场景生成多样化的开放式问题和方法论。
随后,认知科学专家对生成的场景进行了全面的效度审查,重点审查测试问题的适当性、评估标准的准确性以及场景的公正性。值得注意的是,作者使用了三位认知科学专家,他们接受了标准的培训,以确保标注的一致性。
Dynamic dataset construction
虽然静态数据集在揭示LLM的认知偏差方面发挥了作用,但在捕捉需要多次互动才能显现的复杂偏差,如顺序偏差和规划谬误方面存在局限性。这些动态偏差依赖于连续的决策过程,这在单一响应中很难完全捕捉到。因此,作者开发了一个能够模拟和捕获正在进行交互中的认知偏差的动态数据集。
它包括多角色场景脚本,涵盖背景设置、角色、任务以及角色之间的互动逻辑。用户可以修改这些脚本来生成个性化数据。
剧本中有三个不同的角色:主题、反方和主持人。主题是认知偏差检测的焦点,反方旨在促使主题展示目标偏差,而主持人则以中立的立场回应主题的 Query 并提出公正的问题。由于时间和成本的约束,心理专家指导作者在多轮对话测试中选择10个适合的认知偏差。
然后,心理专家撰写了场景生成文本,包括详细信息和输出格式;这些进一步由GPT-4处理以生成覆盖场景目的、背景、角色、规则和评估方法的完整对话脚本。
Validation of the validity of assessment tools
作者雇佣志愿者对MindScope的有效性进行审查,主要关注样本的适当性、评估标准的准确性以及场景本身的偏见性质。
此外,作者还探讨了人类专家和GPT-4在评估认知偏差时的相关性。
Kappa系数达到了0.7167,准确率达到了88.08%。
5 Method
现有的基于LLM的多智能体框架无法满足认知偏见检测的可控性要求,且在构建动态多轮对话方面缺乏灵活性。
因此,作者提出了一种基于规则的多智能体通信框架(RuleGen),它允许智能体以有序和可控的方式进行交互。
此外,为了在开放环境中检测 未标注 的偏见,作者提出了一种基于多智能体框架的可学习偏见检测方法。
The foundational architecture of RuleGen
规则生成(RuleGen)被提出用于在实际场景中模拟多轮对话,并根据所给脚本控制 Agent 的细粒度行为。受启发于[27],规则生成中的 Agent 角色由记忆、规划、反思、动作和 Agent 配置模块(图2)组成。
内存模块 :短期记忆存储了最近的k轮对话。当达到阈值时,它将被概括并存储在长期记忆中。智能体根据需要检索所需记忆。
反思模块: 智能体评估其行为,识别潜在问题,并提出相应的解决方案策略。它旨在从历史经验中学习。
行动模块 :根据提供的交互规则,结合记忆、反射和规划模块,使其做出具体、适当的回应。
智能体配置 :如图2所示,作者已经建立了两种不同的智能体:角色智能体和系统智能体。为了适应不同的场景并展示个性化的差异,RuleGen通过设置名称、身份、任务和背景故事来引导和约束角色智能体的动作空间。
除了角色智能体之外,作者还需要系统智能体来分配脚本资源,并监督和纠正角色智能体的行为。
Rule-Based Multi-Agent Communication
为了解决灵活性差、可控性差和交互模式有限的问题,作者提出了一种新颖的基于规则的多智能体通信机制,该机制专注于自动场景构建和多维智能体行为监测。
5.2.1 Automated rule-based scenario construction
场景规则生成: 场景规则包括五个关键属性:发起角色、接收角色、传输方式、互动目的和互动内容。发起目标和接收目标都指场景中 Agent 的角色。
传播模式涵盖四种信息传播方式:单播(一对一)、广播(一对所有)、多播(一对多)和自接收(从系统接收信息)。
互动目的根据[6]中的九种基本通信目标以及接收到的系统信息构建。互动内容描述了当前角色 Agent 需要执行的任务。
规则解释器 :规则解释器模块作为场景规则的语义解析器,负责协调发起者到接收者的响应流程,并按照选择的传输模式确保传输的精确性和有效性。
具体来说,模块通过确定发起者和接收者,将互动目的和内容整合为一个结构化的请求发送给发起者,并按照规定的传输模式促进发起者响应的适当分发到接收者。
5.2.2 Multi-Dimensional Agent Behavior Monitoring
为了应对智能体行为的不确定性和不可控性,RuleGen框架通过系统智能体实施分层行为调节机制,以管理和校正智能体在模拟环境中的行为。
宏观行为监控 :在宏观层面,系统 Agent 控制角色 Agent 相对于场景目标的总体行动。系统 Agent 能够及时调整与场景规格不符的偏差,使参与者的行动与场景目标保持一致。
微观行为监测 :如图2所示,微观 Level 的行为监测涉及系统 Agent 对角色 Agent 互动的精细监控。这些系统 Agent 会根据预定义的互动目标和内容评估响应。采用零样本CoT [36]方法论,系统 Agent 在每一步t评估参与 Agent 的行动适当性,并在出现偏差时引导纠正措施。
这一过程包括在角色 Agent 的行为偏离脚本或互动目标时发出修正指令。角色 Agent 然后调整其行动以确保遵守指定的互动协议。相反,遵循预期行为的确认通过修正指令得到证实。
Detecting Cognitive Bias Without Labels
现有模型在被告知要检测何种偏见时表现良好[4]。然而,没有类型标签的认知偏见检测更具挑战性。本文专注于对 未标注 的认知偏见检测进行更深入的探索,这更符合实际应用需求。
如图3所示,提出了一种认知偏见检测方法(CBDC),以解决检测潜在认知偏见和提高可解释性的挑战。
5.3.1 Cognitive Bias Recognition and Detection
为了增强智能 Agent 识别认知偏差的识别和理解能力,作者构建了一个外部知识向量库K,该库包含了72种认知偏差的详细描述。这个库中存储了各种认知偏差的详细信息。
在每个竞争性检测 Agent 的初始化过程中,作者将从K中获取相应偏差的详细信息,并将这些信息传递给相应的 Agent ,使他们能够更深入地理解。
如图3所示,首先,作者用两个具有不同个性的 Agent Agr和Cons对测试文本T进行筛选,并得到认知偏差集Br和Bc。为了防止真实偏差被忽略,Br和Bc进一步合并得到候选集B。
接下来,候选集B中的特定偏差类别Bi将被传递给特定的竞争性检测 Agent CAi,然后CAi将确定文本T是否包含偏差类别Bi。
5.3.2 Debate competition based on loser trees
同样的样本可能被不同 Agent 机构识别为不同的认知偏差。为了提高稳定性,作者提出了一种多 Agent 竞争辩论机制。然而,如果候选人数量为N,那么复杂度将为O(N)。因此,作者创新性地提出了一种基于失败树的辩论竞争方法,将复杂度降低到O(log_N^2)。
如图3所示,构建的失败树有N个叶子节点,每个节点代表一个专门用于检测特定认知偏差的竞争检测 Agent 。这种方法可以将无标签的检测转化为有标签的检测,从而有效简化了检测过程。随后, Agent 使用有标签检测技术来评估认知偏见的存在。然后, Agent 构建一个对于所有表现出认知偏见的叶子节点的失败树。
这些 Agent 遵循失败树的结构,并按照有序、高效的方式进行辩论,辩论顺序为:
1). 开启(介绍认知偏见的特性和案例);
2). 论点(引用认知偏见的证据);
3). 反驳(根据先前的辩论内容反驳对手的观点);
4). 总结观点。竞争过程继续进行,直到最终只剩下一个竞争检测 Agent 。
5.3.3 Decision module based on reinforcement learning
在这场辩论中, Agent 之间的竞争由裁判 Agent 决定。为了确保决策的可靠性,作者创新地引入了两个裁判 Agent 和 ,它们具有不同的决策风格。受到辩论比赛评分规则的启发,作者从六个不同的指标维度对不同竞争 Agent 的表现进行评分,包括论点支持、逻辑一致性、有效反驳、论点完整性、说服力和对认知偏差的合理评估。最后,作者使用 DQN [24] 训练的强化学习模型来做出决策。
如图3所示,决策模块分为两个阶段:训练阶段和决策阶段。
具体而言,作者设立一个决策任务来评估给定环境中的两个智能体性能,并基于一组权重做出决策。在训练阶段,作者初始化一个容量为N的 replay buffer,并定义一个随机初始权重θ的动作价值函数Q。
同时,目标动作价值函数初始化为θ'=θ。在M个episodes中,每个episode开始于初始状态及其预处理序列。
在每一步t,智能体使用遗传算法策略在环境中搜索要执行的动作a_t,并将其存储在replay buffer D中。从一个随机采样于D的mini-batch中,计算每个transition的目标值y_j。如果episode在下一步结束,则;否则,。
通过梯度下降最小化平方误差损失来更新网络参数θ。为确保稳定性,每隔C步更新目标网络的权重θ'以匹配当前Q-network权重θ。这一过程优化了在指定环境中进行最优决策的策略。
在决策阶段,作者利用训练阶段最佳权重作为决策权重,比较两个智能体的得分来宣布获胜者。
6 Experiments
本文详细介绍了对MindScope数据集进行的广泛实验和分析,重点关注以下几个问题:
(1)评估GPT-4作为认知偏见评估器的性能。
(2)评估各种LLM中的认知偏见。
(3)测试RuleGen和CBDC的有效性。
所使用的具体模型分别为GPT-4-turbo和GPT-3.5-turbo-16k。
Proficiency testing of GPT-4 as an evaluator
实验设计: 作者从静态数据集中各偏差类型的10%数据中进行抽样,并招募了三位心理学研究生和博士生进行手动标注。作者确保标注者之间的相关性可靠。详细的标注策略请参见附录C。
评估方法: 作者使用准确性、皮尔逊相关系数和Kappa统计来计算GPT-4与人类评估者评估结果之间的相关性。GPT-4通过可解释的零样本 Prompt 进行评估,根据当前场景、评估标准和偏见名称和描述判断特定认知偏差的存在。为确保一致性,温度参数设置为0,GPT-4的评估重复了三次。
结果分析 。来自三次评估的平均结果显示,GPT-4在标注任务中与人类之间存在显著的相关性。值得注意的是,平均Kappa统计量为0.7180,皮尔逊相关系数为0.7230,平均准确率为88.08%。
具体而言,GPT-4在三次评估的Kappa统计量分别为0.9395,0.9546和0.9402,分别显示了其评估过程的高度一致性。这些高度一致的统计数据强调了其评估过程的稳健性和可靠性。有关更详细的信息请参见附录C。
6.2.1 Cognitive bias detection in static dataset
测试方法在静态数据集上的应用: 为评估LLM的认知偏差水平,作者在MindScope的静态数据集中测试了12个LLM,包括GPT-4、GPT-3.5-Turbo、Gemini-Pro [32]、Llama2系列 [33] 和Vicuna系列 [43]。为确保公平性,作者对LLM输入了相同的 Prompt 。
评估方法:先前的实验验证了 GPT-4 是一个有效的评估者。在这里,作者利用 GPT-4 来评估 LLMs 在 MindScope 上的性能。
认知偏差频率分析: 图4揭示了12种LLM的认知偏差频率。GPT-4的认知偏差最低,而ChatGLM-6B的认知偏差最高,主要针对中文进行训练。从Llama2-7b到Llama2-70B,以及Vicuna-7b到Vicuna-33B,随着模型参数的增加,认知偏差程度逐渐降低。值得注意的是,模型微调可能会引入新的认知偏差[14]。
Vicuna系列通常表现出比Llama2系列更高的认知偏差频率,需要进一步调查和关注。最后,Gemini-Pro模型在面临可能存在偏见的元素(如种族或性别)时选择拒绝回答,尽管它防止了偏见的直接表达,但并非其他LLM的标准方法。
宜家效应[26]: 宜家效应被定义为由于个人劳动或情感投入而高估物品的趋势,所有十个模型中均出现了显著的宜家效应。这表明LLM可能会高估其生成的内容,导致在生成过程中难以自我纠正错误或不准确。此外,存在忽视用户反馈的风险,因为模型可能会继续生产其认为的质量内容,从而无法满足用户需求。
影响偏差(Impact Bias)[37]: 这一偏差指的是倾向于高估未来情感状态的持续时间或强度。在 LLMs 中,影响偏差可能导致高估或低估某些输入或事件的影响,从而导致预测或生成的结果与现实严重不符,影响决策的有效性。
其次,GPT-4展现了最少的认知偏见。然而,它展示了一些明显的偏见,如框架效应[17]、风险补偿[3]等。在比较Llama2-7B与Llama2-70B时,模型尺寸的增加通常会导致大多数认知偏见的减少。
然而,对于某些偏见,如知识的诅咒[8]和生存偏差[7],情况正好相反。
在Vicuna系列中观察到了类似趋势。这些发现表明,仅仅增加模型大小并不能解决所有认知偏见。
6.2.2 Cognitive bias detection in dynamic datasets
测试方法: 作者采用了RuleGen将脚本转换为测试样本,这些样本以多轮对话的形式呈现,包括初始化系统 Agent 和角色 Agent ,并根据规则控制交互。作者使用GPT4检测主体 Agent 是否存在认知偏差,详情参见附录E.2。
结果分析。 作者在动态场景中系统地测试了12种不同的认知偏差。如图5所示,在静态评估数据中,GPT-4和GPT-3.5在沉没成本谬误、计划谬误和单位偏见方面几乎没有任何认知偏差。
然而,如图6所示,这些认知偏差在多轮对话中显著更为明显。这表明与静态数据集存在明显差异。这一发现表明认知偏差可能在复杂互动中更为突出。
The effectiveness of the detection framework
6.3.1 evaluation metrics
总体准确率(Acc (%)):算法正确识别出的案例数量占总案例数的比率。
实际偏差案例准确率(Accbias (%)):算法正确识别的实际存在偏差的案例比例。
无偏案例准确率(Accbias(%)):算法正确识别的无偏案例所占比例。
6.3.2 Main Results
作者利用301个由心理学专家标注的静态测试样本作为测试数据集。如表2所示,作者的多智能体检测方法显著优于现有技术。与GPT-4相比,作者的方法整体准确率提高了35.10%。
这一显著提升在存在认知偏差的情况下尤为明显,作者在这类案例中的检测准确率比GPT-4提高了近26.48%。
实验结果表明,作者的方法在识别存在认知偏差的情况下具有明显的优势。此外,在没有认知偏差的情况下,作者的方法相对于GPT-4取得了约38.37%的改进。
6.3.3 Ablation Study
首先,作者分析了结合候选生成和知识检索的基本框架,用于检测认知偏见。初始 Agent 识别偏见并构建候选集。最终的检测由另一个 Agent 完成。接下来,作者将剪枝的败者树方法添加到改进 Agent 之间的辩论和决策中,并由裁判 Agent 最终确定决策。
最后,作者整合了一个强化学习决策模块,以增强裁判 Agent 的决策和适应性。表2中的结果表明有了显著的改进。如表3所示,作者在所选的辩论场景训练集和测试集上使用了各种优化算法。
结果表明,强化学习通过调整权重在训练和测试集上都是最优的。具体的实验设置可在附录F.2中找到。
Case study
为了探索不同的决策风格如何影响LLM中的认知偏差,作者编写了一个场景脚本,并使用RuleGen生成多轮对话。主要关注角色“主题”,以评估沉没成本效应的影响。
作者分别模拟了两种决策风格的情景,一次是激进的,一次是保守的。如图7中的红色文本所示,沉没成本效应在激进风格中出现,而在保守风格中没有出现。这表明决策风格可以影响LLM中认知偏差的产生。
总结而言,GPT-4在 Token 条件下具有强大的认知偏差检测能力。对于静态数据集,作者评估了12个LLM,重点关注认知偏差的不同之处。结果表明,不同LLM在认知偏差上存在显著差异,但总体趋势表明,更强大的LLM认知偏差频率较低。
在动态数据集上,作者对GPT-4和GPT-3.5的偏见结果进行了评估,证实了多轮对话中更高频率的认知偏差假设。通过一系列定量实验,作者验证了作者的检测框架优于当前的多智能体框架。此外,消融研究证实了可学习MCDA模块的显著有效性。
7 Conclusion
这篇论文介绍了一个名为MindScope的新基准,用于探索LLM的认知偏差。MindScope包括静态和动态部分,导致了一系列关于决策和模型调优的有趣发现。
特别是,基于作者提出的RuleGen,可以通过一个简单的脚本可控地生成多轮对话。用户还可以使用RuleGen生成大型个性化数据集,并完成许多心理实验。
此外,作者介绍了一种使用loser trees和基于强化学习的决策模块的多智能体检测方法,用于无标签的认知偏差检测。
MindScope: Exploring cognitive biases in large language models through Multi-Agent Systems.