WildChat:100万条用户-ChatGPT对话数据开源!

人工智能与算法增长营销弹性计算

聊天机器人如GPT-4和ChatGPT被广泛使用,但缺乏公共数据集来展示这些工具的实际使用情况。 为了弥补这一空白,提出了 WILDCHAT 项目,旨在收集用户与ChatGPT的互动日志。该项目 促进了对话AI研究,特别是在多轮对话、多语言交互以及用户行为分析方面。

数据收集

  • 通过提供ChatGPT的免费访问,收集了用户的聊天记录和请求头信息。
  • 使用GPT-3.5-Turbo API和GPT-4 API部署了两个聊天机器人服务,并通过Hugging Face Spaces公开。
  • 收集过程遵循用户同意机制,确保数据收集的合法性和伦理性。

picture.image

数据处理

  • 对收集到的数据进行预处理,包括将轮次匹配成对话、匿名化个人信息等。
  • 使用工具如Microsoft’s Presidio和Spacy进行数据清洗,以去除个人身份信息。

数据集特点

  • WILDCHAT数据集包含 100万条用户与ChatGPT 的对话记录,超过 250万 个交互轮次。

picture.image

  • 数据集丰富多样,包含多种语言,并且提供了用户人口统计信息。

picture.image

picture.image

picture.image

  • 进 行了毒性分析,使用OpenAI Moderation API和Detoxify工具来检测和分类不安全内容。
  • 利用WILDCHAT数据集对Llama-2 7B模型进行指令调优,创建了WILDLLAMA模型,并在MT-bench上评估了其性能。

picture.image


          
WILDCHAT: 1M CHATGPT INTERACTION LOGS IN THE WILD
          
https://arxiv.org/pdf/2405.01470
          
https://hf-mirror.com/datasets/allenai/WildChat-1M
          
https://hf-mirror.com/allenai/WildLlama-7b-user-assistant
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
抖音连麦音画质体验提升与进阶实践
随着互娱场景实时互动创新玩法层出不穷,业务伙伴对 RTC「体验」和「稳定」的要求越来越高。火山引擎 RTC 经历了抖音 6 亿 DAU 的严苛验证和打磨,在架构设计、音画质提升、高可靠服务等方面沉淀了丰富的经验,本次演讲将和大家分享火山引擎 RTC 在直播连麦等场景中的技术优化及其带来的新玩法。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论