微软phi 4开源,以小博大~

大模型向量数据库机器学习

微软 Phi4 开源。picture.image

Phi系列, 它不像许多模型那样依赖自然数据,而是大量采用了高质量的合成数据。然后在各个任务上都获得了不错的效果,虽然打不过qwen 2.5~picture.image

数据处理要点:

  • 合成数据:通过 Multi-Agent 和 self-revision 生成合成数据,增强了推理能力,降低了对自然数据的依赖。
  • 后训练优化:通过 rejection sampling 和 DPO 等策略,提升了输出质量,使其更符合人类的偏好。
  • 训练数据过滤:严格的过滤过程确保排除了与基准测试重叠的数据,提高了模型的泛化能力。

另外,Phi-4 还使用了Pivotal Token Search (PTS) 技术,来识别其响应中的关键决策点,这有助于它高效地处理需要大量推理的任务。

picture.image

0
0
0
0
关于作者
相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论