一份100万真实用户与ChatGPT多轮会话数据集

技术

欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正


        
          
https://arxiv.org/abs/2405.01470  
https://huggingface.co/datasets/allenai/WildChat-1M  

      
数据集摘要

WildChat 是人类用户和 ChatGPT 之间 100 万次对话的集合,以及人口统计数据,包括州、国家、散列 IP 地址和请求标头。我们通过为在线用户免费提供 OpenAI 的 GPT-3.5 和 GPT-4 来收集 WildChat。在这个版本中,25.53% 的对话来自 GPT-4 聊天机器人,其余来自 GPT-3.5 聊天机器人。该数据集包含广泛的用户-聊天机器人交互,这些交互以前未被其他指令微调数据集涵盖:例如,交互包括模棱两可的用户请求、代码切换、主题切换、政治讨论等。WildChat既可以作为教学微调的数据集,也可以作为研究用户行为的宝贵资源。

请注意,此数据集包含有毒和无毒的用户输入/ChatGPT 响应。

api分布

picture.image

语言

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
vivo 容器化平台架构与核心能力建设实践
为了实现规模化降本提效的目标,vivo 确定了基于云原生理念构建容器化生态的目标。在容器化生态发展过程中,平台架构不断演进,并针对业务的痛点和诉求,持续完善容器化能力矩阵。本次演讲将会介绍 vivo 容器化平台及主要子系统的架构设计,并分享重点建设的容器化核心能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论