大爆发:Qwen、DeepSeek、小米组团开源最新推理大模型

大模型向量数据库云安全

5.1前国内多款大模型集中开源,卷的飞起:阿里Qwen3系列、小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B。

picture.image

Qwen3系列

Qwen3 是 Qwen 系列中的最新一代大语言模型,提供了一套完整的密集型和混合专家(MoE)模型。基于广泛的训练,Qwen3 在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展,一图胜千言:

picture.image

  
https://qwenlm.github.io/blog/qwen3/  
https://hf-mirror.com/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

小米MiMo-7B

开源专为推理任务设计的MiMo-7B系列模型,包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型的checkpoint。

picture.image

MiMo-7B其推理潜力卓越,甚至超越了更大的32B模型。经过强化学习(RL)训练后,MiMo-7B-RL在数学和代码推理任务上表现出色,与OpenAI的o1-mini相当。

picture.image

预训练:为推理而生的基础模型

优化了数据预处理流程,增加预训练数据中的推理模式密度。采用三阶段数据混合策略进行预训练。MiMo-7B-Base在大约25T tokens上进行了预训练。

picture.image将多tokens预测作为额外的训练目标,这不仅提升了模型性能,还加速了推理过程。

picture.image

  
https://hf-mirror.com/XiaomiMiMo  
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2,这是一款为Lean 4中的形式化定理证明而设计的开源大语言模型:

  • 其初始化数据是通过由DeepSeek-V3驱动的递归定理证明流程收集的。
  • 冷启动训练过程首先提示DeepSeek-V3将复杂问题分解为一系列子目标。已解决子目标的证明被整合到一个连贯的思维链中,并结合DeepSeek-V3的逐步推理,为强化学习创建一个初始的冷启动。这一过程能够将非形式化和形式化的数学推理整合到一个统一的模型中。

picture.image

  
https://hf-mirror.com/deepseek-ai/DeepSeek-Prover-V2-671B

Qwen2.5-Omni-3B

Qwen2.5-Omni系列此前已经开源了一个7B版本,此次放出一个更小尺寸Qwen2.5-Omni-3B,为响应开发者轻量级GPU适配需求。

picture.image

Qwen2.5-Omni 是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多样化模态,并同时以流式方式生成文本和自然语音响应。

picture.image

  
https://hf-mirror.com/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

推荐阅读


欢迎关注我的公众号“PaperAgent ”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论