素材来源官方媒体/网络新闻
,
,
,
月之暗面 (Moonshot AI) 最新发布了一个开源大模型:Kimi K2,混合专家(MoE)架构,激活参数320亿,总参数1万亿,不仅能回答问题,还能自主执行任务(Agentic 能力)\x0a\x0a开源了两个版本:\x0a1. Kimi-K2-Base:基础模型,适合研究者和开发者进行微调\x0a2. Kimi-K2-Instruct:经过指令训练的版本,可直接用于聊天和执行任务\x0a\x0a主要能力展示\x0a1. 智能化任务执行\x0a· 薪资数据分析:通过16次工具调用,自动生成统计分析、可视化图表和交互式网页\x0a· 斯坦福 NLP 族谱探索:通过搜索、浏览、点击等20多个操作,构建交互式网站\x0a· Coldplay 演唱会规划:通过17次工具调用,完成搜索、日历、邮件、机票、住宿等全流程预订\x0a2. 命令行编程能力\x0a· 能够理解代码环境,自主决策并执行命令\x0a· 展示了用 JavaScript 开发 3D 版 Minecraft 的例子\x0a· 可以自动运行测试、调试代码、迭代改进\x0a\x0a性能表现\x0a在多个基准测试中表现优异:\x0a· 编程能力:在 SWE-bench(真实软件工程任务)上达到65.8%的成功率\x0a· 数学推理:在 AIME 2025(美国数学邀请赛)上达到49.5%的准确率\x0a· 工具使用:在各类工具使用任务上表现出色\x0a1. 编程能力\x0aKimi K2:SWE-bench 65.8%(单次尝试),71.6%(多次尝试)\x0aDeepSeek-V3:38.8%(单次尝试)\x0aQwen3-235B:34.4%(单次尝试)\x0a2. 数学推理\x0aKimi K2:AIME 2025 49.5%,MATH-500 97.4%\x0aDeepSeek-V3:AIME 2025 46.7%,MATH-500 94.0%\x0aQwen3-235B:AIME 2025 24.7%,MATH-500 91.2%\x0a\x0a技术创新\x0a1. MuonClip优化器\x0a· 解决了大规模训练中的稳定性问题\x0a· 通过 qk-clip 技术防止注意力机制崩溃\x0a· 在15.5万亿 token 的预训练中实现零训练故障\x0a2. 智能体能力训练\x0a· 大规模工具使用数据合成:模拟真实世界的工具使用场景\x0a· 通用强化学习:让模型能够自我评判和改进,不仅限于有标准答案的任务\x0a\x0a\x0a\x0a官方文章地址:\x0ahttps://moonshotai.github.io/Kimi-K2/
