第三天,我们来介绍 MiniMax Agent,一个能完成长程(Long Horizon)复杂任务的通用智能体,也就是能多步规划出专家级解决方案、能灵活拆解任务需求、并能执行多个子任务从而交付最终结果。
MiniMax Agent 在公司内部已经使用了近60天,逐渐成为内部超过50%的同学日常使用的产品。
比如我们两天前更新的 MiniMax-M1 模型,用 MiniMax Agent 来生成一个15分钟的讨论材料:
https://11zrgrdvcp.space.minimax.io/
当然,也可以是一个带音频的学习教程:
https://8t97qxgrm2.space.minimax.io/
为了弥补小时候没有看过 EVA 的遗憾,快速补个课:
https://g1a4nj9ouv.space.minimax.io/
当然,做个 4399 偷个懒也不在话下,暂且叫他 5399:
https://bzem10ss7b.space.minimax.io/
更高级的也行,比如为了准备近期的产品发布,开发同学们为了尝试做各种前端动画:
https://kkyd1s0gol.space.minimax.io/
还可以做得更完整一些,比如卖个手机:
https://r01udyvbjw.space.minimax.io/
(credit to 赛博禅心)
我们做Agent产品的起点来自于半年前,那个时候我们从一个垂直领域的智能体开始,叫万物追踪,通过一套workflow来追踪各种自定义的信息。但是我们很快就发现这只是灵活度更高的通用Agent的一个子集,于是我们开始研发上限更高的通用Agent。
在研发过程中,我们按照“靠谱的人”的标准来设计和要求Agent:
- 编程:
a. 包含更多组件和复杂跳转逻辑
b. 能够模拟用户操作做非常全面的测试,不交付有bug的网页
c. 重视界面设计的交互视觉效果和用户体验 2. 多模态:
a. 除了支持长文本文件,也支持视频、音频、图片等的全面理解
b. 内置生图、音频生成、视频生成等能力,一键直出图文音并茂的作品 3. MCP扩展
a. 内置MiniMax MCP,多模态输出能力强大且实惠
b. 集成常用Github/Gitlab、Slack、Figma等MCP,提高上下文,延展用户办公生活各种任务场景
目前,产品还没法通过单一模型实现,因此底层使用了多个模型,这也造成了一定的使用成本。我们在努力研发完成任务更高效、计算成本更低的解决方案,从而更方便被更多的人日常使用。
互联网时代有句经典的话,
“Talk is cheap, show me the code.”
但是在使用 Agent 的时候,有种生产力和生产关系开始发生变化的恍惚,也许有时候应该说,
“Code is cheap,show me the requirement.”
国际货币基金组织IMF在上个月预测,2025年至2030年,AI将每年推动全球GDP增长约0.5%。后面会不会显著超过这个估计,我们拭目以待。
Intelligence with Everyone.