最新开源-高质量中文偏好数据集-COIG-P - 文章 - 开发者社区

大家好，我是刘聪NLP。

今天给大家分享一个大型中文高质量偏好数据集-COIG-P。

HF: https://huggingface.co/datasets/m-a-p/COIG-P

Paper: https://arxiv.org/pdf/2504.05535

picture.image

整个偏好数据集总量为 1006 K，涉及 92K 个 Query，从多个中文问答平台收集，包括对话、逻辑推理、数学、小说续写、角色扮演和代码等6个领域。

picture.image

整个数据收集和清理工作如上图所示，

数据源主要来自百度知道、知乎、百度贴吧、中文行政能力测试，还将一些英文开源数据集的Query翻译成中文。

通过去重和过滤保证Query的质量，使用SentenceBERT获取Query的句向量，删除语义相似度高的Query，以确保多样性。过滤则是使用Qwen2-72B模型对查询进行评分，丢弃那些得分低于5的Query，还设计了一些规则来删除格式不正确的Query。

回答生成则利用15种不同的开源或闭源的大模型进行生成，模型涉及Abab6.5、Baichuan4、Claude3.5、DeepSeek-V2、Doubao-Pro、Gemini1.5-Pro、GPT-Turbo/3.5/4/4o、Qwen-Max、Qwen2-72B、Yi-1.5-34B、Yi-Large、GLM-4和Moonshot。

对每个数据打分采用了8个大模型，涉及Claude3.5、DeepSeekV2、Doubao-Pro、GLM-4、GPT4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot，并且针对不同领域数据设置了专属提示词，如下所示。

picture.image

为了保证数据质量，随机从每个领域抽取40个样本，人工标注，平均准确率高达90.83%

同时为了验证数据的有效性，在构建的数据上，进行模型二次训练验证，在AlignBench榜单上，Qwen等模型均有一定的提高。

picture.image

还基于该偏好数据，训练了奖励模型-CRM，7B模型分数直逼GPT4。

picture.image

PS：看到这里，如果觉得不错，可以来个点赞、在看、关注。给公众号添加【星标⭐️】不迷路！您的支持是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！