大家好,我是刘聪NLP。
今天给大家分享一个大型中文高质量偏好数据集-COIG-P。
HF: https://huggingface.co/datasets/m-a-p/COIG-P
Paper: https://arxiv.org/pdf/2504.05535
整个偏好数据集总量为 1006 K,涉及 92K 个 Query,从多个中文问答平台收集,包括对话、逻辑推理、数学、小说续写、角色扮演和代码等6个领域。
整个数据收集和清理工作如上图所示,
数据源主要来自百度知道、知乎、百度贴吧、中文行政能力测试,还将一些英文开源数据集的Query翻译成中文。
通过去重和过滤保证Query的质量,使用SentenceBERT获取Query的句向量,删除语义相似度高的Query,以确保多样性。过滤则是使用Qwen2-72B模型对查询进行评分,丢弃那些得分低于5的Query,还设计了一些规则来删除格式不正确的Query。
回答生成则利用15种不同的开源或闭源的大模型进行生成,模型涉及Abab6.5、Baichuan4、Claude3.5、DeepSeek-V2、Doubao-Pro、Gemini1.5-Pro、GPT-Turbo/3.5/4/4o、Qwen-Max、Qwen2-72B、Yi-1.5-34B、Yi-Large、GLM-4和Moonshot。
对每个数据打分采用了8个大模型,涉及Claude3.5、DeepSeekV2、Doubao-Pro、GLM-4、GPT4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot,并且针对不同领域数据设置了专属提示词,如下所示。
为了保证数据质量,随机从每个领域抽取40个样本,人工标注,平均准确率高达90.83%
同时为了验证数据的有效性,在构建的数据上,进行模型二次训练验证,在AlignBench榜单上,Qwen等模型均有一定的提高。
还基于该偏好数据,训练了奖励模型-CRM,7B模型分数直逼GPT4。
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!