微软 Phi4 开源。
Phi系列, 它不像许多模型那样依赖自然数据,而是大量采用了高质量的合成数据。然后在各个任务上都获得了不错的效果,虽然打不过qwen 2.5~
数据处理要点:
- 合成数据:通过 Multi-Agent 和 self-revision 生成合成数据,增强了推理能力,降低了对自然数据的依赖。
- 后训练优化:通过 rejection sampling 和 DPO 等策略,提升了输出质量,使其更符合人类的偏好。
- 训练数据过滤:严格的过滤过程确保排除了与基准测试重叠的数据,提高了模型的泛化能力。
另外,Phi-4 还使用了Pivotal Token Search (PTS) 技术,来识别其响应中的关键决策点,这有助于它高效地处理需要大量推理的任务。