点击下方 卡片 ,关注“ 慢慢学AIGC ”
“据说可以处理 200B 大模型的 MacBook Pro”
作者:Sean Vosler
Apple 刚刚推出了全新的 MacBook Pro,声称其配备的 128 GB 显存和全新 M4 Max 芯片“能够轻松处理拥有 2000 亿参数的大模型”。这意味着什么呢?通过适当配置,你可以在本地(甚至是移动)加载最为复杂的大模型(LLM),并进行各种有趣的交互。
请记住,在模型参数上“更大并不总是更好”;如今的 80 亿参数模型在某些情况下甚至可以超过 6 个月前的 1000 亿参数模型,尤其是在上下文窗口利用率上。而对于中等规模的模型而言,这种强大性能是一个变革性因素……基本上,使用一个合理强大的模型(例如 Minstral 8B),你可能可以充分利用其 128k 的上下文窗口——可以在提示中包含数百页的文本,并以合理的交互速率(T/S)与之交互。
简单来说, 本地 LLM 将变得更加实用,开发者将能够利用这些前沿性能来开发极具创新的软件! 我很想拥有一个使用 Minstral 8B 和 Minstral Embed 的本地知识库管理软件,能够快速整理并查询我的书籍、文章以及所有笔记。这在现在已经可行,而新的 M4 Pro 处理器对此任务再合适不过了,甚至可以装进你的背包。我们生活在一个多么神奇的时代啊!对任何曾在没有强大 GPU 的电脑上尝试运行 2000 亿参数大模型的人来说,Apple 声称可以“轻松”运行这些模型简直是个巨大亮点。
一些值得注意的技术规格:
用 LLaMA 3 生成 1024 个 token 的平均速度(tokens/s):
- M1 Max:34.49 tokens/s(8B Q4_K_M 模型)
- M2 Ultra:76.28 tokens/s
- M3 Max:50.74 tokens/s
- M4 Max——预计(粗略估算)
-
文本生成速度:~96-100 tokens/s(8B Q4_K_M 模型)
-
提示处理速度:~1200-1300 tokens/s
这一预计基于:
-
GPU 性能较 M1 Max 提高 1.9 倍
-
提升的内存带宽(546GB/s)
-
提高 3 倍的神经引擎速度
-
从 M1→M2→M3 的历史性能提升模式
M4 Max 在 GPU 领域的位置:
M4 Max 预计速度:~96.41 tokens/s
将 M4 Max 置于以下水平:
-
67% 的 H100 PCIe 性能(144.49 tokens/s)
-
74% 的 RTX 4090 性能(127.74 tokens/s)
-
比 M2 Ultra 快 26%(76.28 tokens/s)
-
比 M1 Max 提高 90%(34.49 tokens/s)
请记住,这是一台与那些单 GPU 比较的笔记本电脑,其价格可能超过整台系统的价格。
表现为:
-
H100 PCIe 性能的约 17%(7760 tokens/s)
-
RTX 4090 性能的约 19%(6898 tokens/s)
-
比 M2 Ultra 提高约 26%(1023 tokens/s)
-
比 M1 Max 提高约 262%(355 tokens/s)
现在,真正的问题是,如果 Thunderbolt 5 和 NVIDIA 的 5090 系列即将推出,而软件支持到位,那么外接 GPU 能带来怎样的“疯狂”表现呢?
你怎么看?以 3199 美元的起售价,搭载 M4 Max 的 MacBook Pro 在这种 LLM 性能下,会影响你的购买决定吗?
延伸阅读:
《MLX 有多快?全面评测 10 款苹果 M 芯片和 3 款 NV GPU 性能》
点击下方 卡片 ,关注“ 慢慢学AIGC ”