欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正 !
https://arxiv.org/abs/2405.01470
https://huggingface.co/datasets/allenai/WildChat-1M
数据集摘要
WildChat 是人类用户和 ChatGPT 之间 100 万次对话的集合,以及人口统计数据,包括州、国家、散列 IP 地址和请求标头。我们通过为在线用户免费提供 OpenAI 的 GPT-3.5 和 GPT-4 来收集 WildChat。在这个版本中,25.53% 的对话来自 GPT-4 聊天机器人,其余来自 GPT-3.5 聊天机器人。该数据集包含广泛的用户-聊天机器人交互,这些交互以前未被其他指令微调数据集涵盖:例如,交互包括模棱两可的用户请求、代码切换、主题切换、政治讨论等。WildChat既可以作为教学微调的数据集,也可以作为研究用户行为的宝贵资源。
请注意,此数据集包含有毒和无毒的用户输入/ChatGPT 响应。
api分布
语言