最新开源-高质量中文偏好数据集-COIG-P

大模型向量数据库数据安全

大家好,我是刘聪NLP。

今天给大家分享一个大型中文高质量偏好数据集-COIG-P。

HF: https://huggingface.co/datasets/m-a-p/COIG-P

Paper: https://arxiv.org/pdf/2504.05535

picture.image

整个偏好数据集总量为 1006 K,涉及 92K 个 Query,从多个中文问答平台收集,包括对话、逻辑推理、数学、小说续写、角色扮演和代码等6个领域。

picture.image

整个数据收集和清理工作如上图所示,

数据源主要来自百度知道、知乎、百度贴吧、中文行政能力测试,还将一些英文开源数据集的Query翻译成中文。

通过去重和过滤保证Query的质量,使用SentenceBERT获取Query的句向量,删除语义相似度高的Query,以确保多样性。过滤则是使用Qwen2-72B模型对查询进行评分,丢弃那些得分低于5的Query,还设计了一些规则来删除格式不正确的Query。

回答生成则利用15种不同的开源或闭源的大模型进行生成,模型涉及Abab6.5、Baichuan4、Claude3.5、DeepSeek-V2、Doubao-Pro、Gemini1.5-Pro、GPT-Turbo/3.5/4/4o、Qwen-Max、Qwen2-72B、Yi-1.5-34B、Yi-Large、GLM-4和Moonshot。

对每个数据打分采用了8个大模型,涉及Claude3.5、DeepSeekV2、Doubao-Pro、GLM-4、GPT4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot,并且针对不同领域数据设置了专属提示词,如下所示。

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

为了保证数据质量,随机从每个领域抽取40个样本,人工标注,平均准确率高达90.83%

同时为了验证数据的有效性,在构建的数据上,进行模型二次训练验证,在AlignBench榜单上,Qwen等模型均有一定的提高。

picture.image

还基于该偏好数据,训练了奖励模型-CRM,7B模型分数直逼GPT4。

picture.image

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论