聊天机器人如GPT-4和ChatGPT被广泛使用,但缺乏公共数据集来展示这些工具的实际使用情况。 为了弥补这一空白,提出了 WILDCHAT 项目,旨在收集用户与ChatGPT的互动日志。该项目 促进了对话AI研究,特别是在多轮对话、多语言交互以及用户行为分析方面。
数据收集
- 通过提供ChatGPT的免费访问,收集了用户的聊天记录和请求头信息。
- 使用GPT-3.5-Turbo API和GPT-4 API部署了两个聊天机器人服务,并通过Hugging Face Spaces公开。
- 收集过程遵循用户同意机制,确保数据收集的合法性和伦理性。
数据处理
- 对收集到的数据进行预处理,包括将轮次匹配成对话、匿名化个人信息等。
- 使用工具如Microsoft’s Presidio和Spacy进行数据清洗,以去除个人身份信息。
数据集特点
- WILDCHAT数据集包含 100万条用户与ChatGPT 的对话记录,超过 250万 个交互轮次。
- 数据集丰富多样,包含多种语言,并且提供了用户人口统计信息。
- 进 行了毒性分析,使用OpenAI Moderation API和Detoxify工具来检测和分类不安全内容。
- 利用WILDCHAT数据集对Llama-2 7B模型进行指令调优,创建了WILDLLAMA模型,并在MT-bench上评估了其性能。
WILDCHAT: 1M CHATGPT INTERACTION LOGS IN THE WILD
https://arxiv.org/pdf/2405.01470
https://hf-mirror.com/datasets/allenai/WildChat-1M
https://hf-mirror.com/allenai/WildLlama-7b-user-assistant
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。