微软phi 4开源,以小博大~

大模型向量数据库机器学习

微软 Phi4 开源。picture.image

Phi系列, 它不像许多模型那样依赖自然数据,而是大量采用了高质量的合成数据。然后在各个任务上都获得了不错的效果,虽然打不过qwen 2.5~picture.image

数据处理要点:

  • 合成数据:通过 Multi-Agent 和 self-revision 生成合成数据,增强了推理能力,降低了对自然数据的依赖。
  • 后训练优化:通过 rejection sampling 和 DPO 等策略,提升了输出质量,使其更符合人类的偏好。
  • 训练数据过滤:严格的过滤过程确保排除了与基准测试重叠的数据,提高了模型的泛化能力。

另外,Phi-4 还使用了Pivotal Token Search (PTS) 技术,来识别其响应中的关键决策点,这有助于它高效地处理需要大量推理的任务。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论