一份100万真实用户与ChatGPT多轮会话数据集

技术

欢迎关注我的公众号“ NLP前沿 ”，日更最新论文/博客速读，周更AI领域近一周发生的那些事儿。欢迎投稿！ 行文仓促，有理解错误，欢迎指正 ！


        
          
https://arxiv.org/abs/2405.01470  
https://huggingface.co/datasets/allenai/WildChat-1M

数据集摘要

WildChat 是人类用户和 ChatGPT 之间 100 万次对话的集合，以及人口统计数据，包括州、国家、散列 IP 地址和请求标头。我们通过为在线用户免费提供 OpenAI 的 GPT-3.5 和 GPT-4 来收集 WildChat。在这个版本中，25.53% 的对话来自 GPT-4 聊天机器人，其余来自 GPT-3.5 聊天机器人。该数据集包含广泛的用户-聊天机器人交互，这些交互以前未被其他指令微调数据集涵盖：例如，交互包括模棱两可的用户请求、代码切换、主题切换、政治讨论等。WildChat既可以作为教学微调的数据集，也可以作为研究用户行为的宝贵资源。

请注意，此数据集包含有毒和无毒的用户输入/ChatGPT 响应。

api分布

picture.image

语言

picture.image