探索 M4 Max 在大模型上的性能 - 文章 - 开发者社区

点击下方卡片，关注“ 慢慢学AIGC ”

“据说可以处理 200B 大模型的 MacBook Pro”

picture.image

作者：Sean Vosler

Apple 刚刚推出了全新的 MacBook Pro，声称其配备的 128 GB 显存和全新 M4 Max 芯片“能够轻松处理拥有 2000 亿参数的大模型”。这意味着什么呢？通过适当配置，你可以在本地（甚至是移动）加载最为复杂的大模型（LLM），并进行各种有趣的交互。

请记住，在模型参数上“更大并不总是更好”；如今的 80 亿参数模型在某些情况下甚至可以超过 6 个月前的 1000 亿参数模型，尤其是在上下文窗口利用率上。而对于中等规模的模型而言，这种强大性能是一个变革性因素……基本上，使用一个合理强大的模型（例如 Minstral 8B），你可能可以充分利用其 128k 的上下文窗口——可以在提示中包含数百页的文本，并以合理的交互速率（T/S）与之交互。

简单来说， 本地 LLM 将变得更加实用，开发者将能够利用这些前沿性能来开发极具创新的软件！ 我很想拥有一个使用 Minstral 8B 和 Minstral Embed 的本地知识库管理软件，能够快速整理并查询我的书籍、文章以及所有笔记。这在现在已经可行，而新的 M4 Pro 处理器对此任务再合适不过了，甚至可以装进你的背包。我们生活在一个多么神奇的时代啊！对任何曾在没有强大 GPU 的电脑上尝试运行 2000 亿参数大模型的人来说，Apple 声称可以“轻松”运行这些模型简直是个巨大亮点。

一些值得注意的技术规格：

picture.image

用 LLaMA 3 生成 1024 个 token 的平均速度（tokens/s）：

M1 Max：34.49 tokens/s（8B Q4_K_M 模型）
M2 Ultra：76.28 tokens/s
M3 Max：50.74 tokens/s
M4 Max——预计（粗略估算）

文本生成速度：~96-100 tokens/s（8B Q4_K_M 模型）
提示处理速度：~1200-1300 tokens/s

这一预计基于：

GPU 性能较 M1 Max 提高 1.9 倍
提升的内存带宽（546GB/s）
提高 3 倍的神经引擎速度
从 M1→M2→M3 的历史性能提升模式

M4 Max 在 GPU 领域的位置：

picture.image

M4 Max 预计速度：~96.41 tokens/s

将 M4 Max 置于以下水平：

67% 的 H100 PCIe 性能（144.49 tokens/s）
74% 的 RTX 4090 性能（127.74 tokens/s）
比 M2 Ultra 快 26%（76.28 tokens/s）
比 M1 Max 提高 90%（34.49 tokens/s）

请记住，这是一台与那些单 GPU 比较的笔记本电脑，其价格可能超过整台系统的价格。

picture.image

表现为：

H100 PCIe 性能的约 17%（7760 tokens/s）
RTX 4090 性能的约 19%（6898 tokens/s）
比 M2 Ultra 提高约 26%（1023 tokens/s）
比 M1 Max 提高约 262%（355 tokens/s）

现在，真正的问题是，如果 Thunderbolt 5 和 NVIDIA 的 5090 系列即将推出，而软件支持到位，那么外接 GPU 能带来怎样的“疯狂”表现呢？

你怎么看？以 3199 美元的起售价，搭载 M4 Max 的 MacBook Pro 在这种 LLM 性能下，会影响你的购买决定吗？