WildChat:100万条用户-ChatGPT对话数据开源!

人工智能与算法增长营销弹性计算

聊天机器人如GPT-4和ChatGPT被广泛使用,但缺乏公共数据集来展示这些工具的实际使用情况。 为了弥补这一空白,提出了 WILDCHAT 项目,旨在收集用户与ChatGPT的互动日志。该项目 促进了对话AI研究,特别是在多轮对话、多语言交互以及用户行为分析方面。

数据收集

  • 通过提供ChatGPT的免费访问,收集了用户的聊天记录和请求头信息。
  • 使用GPT-3.5-Turbo API和GPT-4 API部署了两个聊天机器人服务,并通过Hugging Face Spaces公开。
  • 收集过程遵循用户同意机制,确保数据收集的合法性和伦理性。

picture.image

数据处理

  • 对收集到的数据进行预处理,包括将轮次匹配成对话、匿名化个人信息等。
  • 使用工具如Microsoft’s Presidio和Spacy进行数据清洗,以去除个人身份信息。

数据集特点

  • WILDCHAT数据集包含 100万条用户与ChatGPT 的对话记录,超过 250万 个交互轮次。

picture.image

  • 数据集丰富多样,包含多种语言,并且提供了用户人口统计信息。

picture.image

picture.image

picture.image

  • 进 行了毒性分析,使用OpenAI Moderation API和Detoxify工具来检测和分类不安全内容。
  • 利用WILDCHAT数据集对Llama-2 7B模型进行指令调优,创建了WILDLLAMA模型,并在MT-bench上评估了其性能。

picture.image


          
WILDCHAT: 1M CHATGPT INTERACTION LOGS IN THE WILD
          
https://arxiv.org/pdf/2405.01470
          
https://hf-mirror.com/datasets/allenai/WildChat-1M
          
https://hf-mirror.com/allenai/WildLlama-7b-user-assistant
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
vivo 容器化平台架构与核心能力建设实践
为了实现规模化降本提效的目标,vivo 确定了基于云原生理念构建容器化生态的目标。在容器化生态发展过程中,平台架构不断演进,并针对业务的痛点和诉求,持续完善容器化能力矩阵。本次演讲将会介绍 vivo 容器化平台及主要子系统的架构设计,并分享重点建设的容器化核心能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论