想象一下,如果你的名字决定了 AI 如何对待你,这将是多么一件荒唐的事情,但最新研究表明,这可能就是现实。 OpenAI研究团队对 ChatGPT 进行了一项有趣的研究[1],不仅发现了"姓名偏见",还发现更多AI 伦理和公平性问题。
“第一人称公平性”问题
当用户使用"Emily"这个名字时,ChatGPT 倾向于使用更友好、更个人化的语气;而对于"Muhammad"这个名字,AI 的回应则显得更为正式和疏离。这种差异并非孤例,而是在大量样本中呈现出的系统性偏差,这种现象被称为"第一人称公平性"问题。
简单来说,这就像是 AI 在扮演不同角色时,无法公平对待每个"我"。他们通过精心设计的实验,让 AI 系统扮演不同性别、种族和文化背景的角色,然后分析其响应中是否存在偏见。该试验模拟了 AI 系统以特定身份直接与用户对话的场景。研究人员开发了一个名为 PERSONA 的数据集,有 110 万条真实对话,涵盖 9个领域 66 种任务,包括写故事、提供职业建议、解决数学问题等。包含了各种背景的虚构人物。他们让 ChatGPT 扮演这些角色,回答一系列涉及性别、种族、宗教等敏感话题的问题。
研究团队通过分析 AI 的回应,不仅发现AI存在“姓名偏见”,还发现了一些其他偏见:
- 性别偏见:当扮演女性角色时,ChatGPT 更倾向于讨论情感和关系话题,而扮演男性角色时则更多谈论事业和成就。这反映了 AI 系统可能继承了训练数据中的性别刻板印象。
- 种族偏见:系统在扮演不同种族背景的角色时,表现出了明显的差异。例如,扮演非裔美国人时,更容易提到与犯罪或贫困相关的话题,这反映了潜在的种族偏见。
- 文化差异:AI 在扮演不同文化背景的角色时,展现出了对特定文化习俗和价值观的理解,但有时也会过度强调某些文化特征,导致刻板印象的产生。
- 宗教敏感度:研究发现,AI 在处理宗教相关话题时表现得相对谨慎,但仍然存在对某些宗教群体的潜在偏见。
为了量化这些偏见,研究团队开发了一套评估框架,包括质量评估和有害刻板印象检测。他们使用了自然语言处理技术来分析 AI 生成的文本,并结合人工评估来确保结果的准确性。
研究团队并未止步于发现问题,他们还尝试了一些改进措施。通过调整模型的训练方法,特别是引入人类反馈的强化学习,他们成功地减少了这些偏见。
总结
这项研究的创新之处在于,它不仅仅关注 AI 系统的输出,还考虑了系统在扮演不同角色时的行为变化。这种方法更接近真实世界中 AI 应用的场景,为评估 AI 系统的公平性提供了新的视角。
同时,研究也存在一些局限性。例如,PERSONA 数据集虽然涵盖了多种背景,但仍无法完全代表现实世界的多样性。此外,研究主要基于英语对话,可能无法完全反映其他语言和文化背景下的 AI 行为。
这项研究的意义远超出了学术界。如果,这个世界上的各种不公平歧视在未来AI世界也无法避免,这将会是一件多么沮丧的事情。
参考资料
[1] 研究: https://openai.com/index/evaluating-fairness-in-chatgpt/
近期原创文章:
- Swarm:一个OpenAI开源的multiAgent框架,简单哲学的代表
- 为什么 AI 在数学题前抓瞎?苹果研究揭示 AI 推理能力的局限性
- 为什么LLM无法真正推理?OpenAI的o1也无法改变这一事实 原创
- 克制大模型怪脾气的新招——基于意图的提示校准降低LLM提示敏感度问题,让大模型表现更稳定 原创
- Anthropic提出Contextual Retrieval让RAG再进化,大幅降低检索失败率 原创
- 测试时计算vs.预训练计算:LLM进化的重大转折 原创
- AI"破解"AI:来自Claude协助的OpenAI o1模型架构图
- OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力
- OpenAI前研究科学家开源面向未来的提示工程库 ell,重新定义提示工程
- 揭秘MemoRAG:AI记忆模块如何提升生成质量
后台回复“进群”入群讨论
橱窗有更多精选好书,欢迎光临