openchat-3.5-1210:迄今为止最优秀的开源7B模型,支持中文

智能内容人工智能与算法混合云网络

“ 似乎潜力很大,只有很少的中文数据,但是ceval,cmmlu评测效果还挺高的


        
          
https://huggingface.co/openchat/openchat-3.5-1210  
https://github.com/imoneoi/openchat  

      

picture.image

  • OpenChat是一个创新的开源语言模型库,经过C-RLFT的微调 - 这是一种受离线强化学习启发的策略。
  • 我们的模型从质量参差不齐的数据中学习,没有偏好标签,即使是7B模型也能在消费级GPU(例如RTX 3090)上运行,并且表现出与ChatGPT相媲美的出色性能。
  • 尽管我们采用简单的方法,但我们致力于开发高性能、商业可行的开源大型语言模型,并且我们在实现这一愿景方面不断取得重大进展。
Model# ParamsAverageMT-BenchHumanEvalBBH MCAGIEvalTruthfulQAMMLUGSM8KBBH CoT
OpenChat-3.5-12107B63.87.7668.949.548.061.865.377.361.8
OpenChat-3.57B61.67.8155.547.647.459.164.377.363.5
ChatGPT (March)*?61.57.9448.147.647.157.767.374.970.1
OpenHermes 2.57B59.37.5448.249.446.557.563.873.559.9
OpenOrca Mistral7B52.76.8638.449.442.945.959.359.158.1
Zephyr-β^7B34.67.3422.040.639.040.839.85.116.0
Mistral7B-6.8430.539.038.0-60.152.2-

中文评测

请注意本模型没有针对性训练中文(中文数据占比小于0.1%)。 ceval

ModelAvgSTEMSocial ScienceHumanitiesOthers
ChatGPT54.452.961.850.953.6
OpenChat47.2945.2252.4948.5245.08

cmmlu-5shot

ModelsSTEMHumanitiesSocialSciencesOtherChinaSpecificAvg
ChatGPT47.8155.6856.562.6650.6955.51
OpenChat38.745.9948.3250.2343.2745.85
CRLFT

picture.image首先,我们需要了解两种常见的微调方法:监督式微调(SFT)和强化学习微调(RLFT)。SFT直接使用高质量的对话数据集对预训练的语言模型进行微调,而RLFT则根据人类偏好反馈或预定义的分类器建立奖励模型,并通过强化学习最大化估计奖励。然而,这两种方法都存在局限性。SFT要求训练数据具有很高的质量,而RLFT需要昂贵的人类专家注释来收集高质量的成对或排序偏好数据。

为了解决这些问题,OpenChat框架提出了C-RLFT方法。在这个方法中,我们考虑一个通用的非成对(或非排序)SFT训练数据,包括少量的专家数据和大量的次优数据。我们将不同数据来源视为粗粒度的奖励标签,并学习一个类条件策略来利用互补的数据质量信息。有趣的是,C-RLFT中的最优策略可以通过单阶段、无需强化学习的监督学习轻松解决,从而避免了昂贵的人类偏好标签收集。

OpenChat框架包括以下几个关键步骤:

  1. 类条件数据集和奖励:根据不同的数据来源(如GPT-4和GPT-3.5),为每个示例分配类标签,并构建类条件数据集Dc。然后,根据类标签为每个示例分配粗粒度奖励。

  2. 通过C-RLFT进行微调:我们将预训练的LLM视为类条件策略πθ(y|x, c),并使用类信息增强的参考策略πc而不是原始预训练的LLM π0对其进行正则化。这样,我们可以在KL正则化的强化学习框架下优化目标函数。

  3. 模型推理:在推理阶段,我们使用与GPT-4对话相同的特定提示,以便仅生成高质量响应。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论