Intel开源一个新大模型(开源完整代码实现指令微调及DPO)

火山方舟向量数据库大模型

“ 感恩节,在连着周末,这几天应该都没有新论文挂了。今天简单分享一个博客,是intel基于mistral-7b微调的一个新模型,整体效果还不错,利用他们自己的训练框架提供了一个完整训练步骤。

picture.image


        
          
Model: https://huggingface.co/Intel/neural-chat-7b-v3  
Dataset: https://huggingface.co/datasets/Open-Orca/SlimOrca  
Preference Dataset: https://huggingface.co/datasets/Intel/orca_dpo_pairs  
Codebase: https://github.com/intel/intel-extension-for-transformers  
blog: https://medium.com/intel-analytics-software/the-practice-of-supervised-finetuning-and-direct-preference-optimization-on-habana-gaudi2-a1197d8a3cd3  

      

picture.image

Intel Extension For Transformers提供了强大的跨平台训练和推理支持,特别强调了用于加速大型语言模型(LLM)训练和推断的Intel Gaudi2加速器。博客介绍了监督微调和直接偏好优化(DPO)的过程。展示了与其他在开放的LLM排行榜上发布的相似规模的开源LLM相比,实现了可比甚至更好的基准结果。

指令微调

实用了Hugging Face的最新高质量指令数据集Open-Orca/SlimOrca,利用Intel Extension for Transformers提供的微调流程使用DeepSpeed ZeRO-2进行训练。微调代码和训练损失曲线如下所示:

picture.image

picture.image

Direct Preference Optimization

使用DPO算法,该算法稳定且计算快,以更好地与人类偏好保持一致。DPO推导出人类偏好数据的概率,用于替换从人类反馈中需要的奖励模型,并为参数化策略制定最大似然目标。偏好数据集包含从Orca样式数据集Open-Orca/OpenOrca中选择的12k个示例。有关数据集和DPO训练代码的更多详细信息,请参阅Intel/orca_dpo_pairs和DPO示例。启动脚本如下所示:picture.image

Training hyperparameters

learning_rate: 1e-04 train_batch_size: 1 eval_batch_size: 2 seed: 42 distributed_type: multi-HPU num_devices: 8 gradient_accumulation_steps: 8 total_train_batch_size: 64 total_eval_batch_size: 8 optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 lr_scheduler_type: cosine lr_scheduler_warmup_ratio: 0.03 num_epochs: 2.0

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论