WildChat：100万条用户-ChatGPT对话数据开源！ - 文章 - 开发者社区

聊天机器人如GPT-4和ChatGPT被广泛使用，但缺乏公共数据集来展示这些工具的实际使用情况。为了弥补这一空白，提出了 WILDCHAT 项目，旨在收集用户与ChatGPT的互动日志。该项目促进了对话AI研究，特别是在多轮对话、多语言交互以及用户行为分析方面。

数据收集

通过提供ChatGPT的免费访问，收集了用户的聊天记录和请求头信息。
使用GPT-3.5-Turbo API和GPT-4 API部署了两个聊天机器人服务，并通过Hugging Face Spaces公开。
收集过程遵循用户同意机制，确保数据收集的合法性和伦理性。

picture.image

数据处理

对收集到的数据进行预处理，包括将轮次匹配成对话、匿名化个人信息等。
使用工具如Microsoft’s Presidio和Spacy进行数据清洗，以去除个人身份信息。

数据集特点

WILDCHAT数据集包含 100万条用户与ChatGPT 的对话记录，超过 250万 个交互轮次。

picture.image

数据集丰富多样，包含多种语言，并且提供了用户人口统计信息。

picture.image

进行了毒性分析，使用OpenAI Moderation API和Detoxify工具来检测和分类不安全内容。
利用WILDCHAT数据集对Llama-2 7B模型进行指令调优，创建了WILDLLAMA模型，并在MT-bench上评估了其性能。

picture.image


          
WILDCHAT: 1M CHATGPT INTERACTION LOGS IN THE WILD
          
https://arxiv.org/pdf/2405.01470
          
https://hf-mirror.com/datasets/allenai/WildChat-1M
          
https://hf-mirror.com/allenai/WildLlama-7b-user-assistant