探索 M4 Max 在大模型上的性能

大模型

点击下方 卡片 ,关注“ 慢慢学AIGC ”

“据说可以处理 200B 大模型的 MacBook Pro”

picture.image

作者:Sean Vosler

Apple 刚刚推出了全新的 MacBook Pro,声称其配备的 128 GB 显存和全新 M4 Max 芯片“能够轻松处理拥有 2000 亿参数的大模型”。这意味着什么呢?通过适当配置,你可以在本地(甚至是移动)加载最为复杂的大模型(LLM),并进行各种有趣的交互。

请记住,在模型参数上“更大并不总是更好”;如今的 80 亿参数模型在某些情况下甚至可以超过 6 个月前的 1000 亿参数模型,尤其是在上下文窗口利用率上。而对于中等规模的模型而言,这种强大性能是一个变革性因素……基本上,使用一个合理强大的模型(例如 Minstral 8B),你可能可以充分利用其 128k 的上下文窗口——可以在提示中包含数百页的文本,并以合理的交互速率(T/S)与之交互。

简单来说, 本地 LLM 将变得更加实用,开发者将能够利用这些前沿性能来开发极具创新的软件! 我很想拥有一个使用 Minstral 8B 和 Minstral Embed 的本地知识库管理软件,能够快速整理并查询我的书籍、文章以及所有笔记。这在现在已经可行,而新的 M4 Pro 处理器对此任务再合适不过了,甚至可以装进你的背包。我们生活在一个多么神奇的时代啊!对任何曾在没有强大 GPU 的电脑上尝试运行 2000 亿参数大模型的人来说,Apple 声称可以“轻松”运行这些模型简直是个巨大亮点。

一些值得注意的技术规格:

picture.image

用 LLaMA 3 生成 1024 个 token 的平均速度(tokens/s):

  • M1 Max:34.49 tokens/s(8B Q4_K_M 模型)
  • M2 Ultra:76.28 tokens/s
  • M3 Max:50.74 tokens/s
  • M4 Max——预计(粗略估算)
  • 文本生成速度:~96-100 tokens/s(8B Q4_K_M 模型)

  • 提示处理速度:~1200-1300 tokens/s

这一预计基于:

  • GPU 性能较 M1 Max 提高 1.9 倍

  • 提升的内存带宽(546GB/s)

  • 提高 3 倍的神经引擎速度

  • 从 M1→M2→M3 的历史性能提升模式

M4 Max 在 GPU 领域的位置:

picture.image

M4 Max 预计速度:~96.41 tokens/s

将 M4 Max 置于以下水平:

  • 67% 的 H100 PCIe 性能(144.49 tokens/s)

  • 74% 的 RTX 4090 性能(127.74 tokens/s)

  • 比 M2 Ultra 快 26%(76.28 tokens/s)

  • 比 M1 Max 提高 90%(34.49 tokens/s)

请记住,这是一台与那些单 GPU 比较的笔记本电脑,其价格可能超过整台系统的价格。

picture.image

表现为:

  • H100 PCIe 性能的约 17%(7760 tokens/s)

  • RTX 4090 性能的约 19%(6898 tokens/s)

  • 比 M2 Ultra 提高约 26%(1023 tokens/s)

  • 比 M1 Max 提高约 262%(355 tokens/s)

现在,真正的问题是,如果 Thunderbolt 5 和 NVIDIA 的 5090 系列即将推出,而软件支持到位,那么外接 GPU 能带来怎样的“疯狂”表现呢?

你怎么看?以 3199 美元的起售价,搭载 M4 Max 的 MacBook Pro 在这种 LLM 性能下,会影响你的购买决定吗?

延伸阅读:

苹果 M4 处理器深度解析

MLX 有多快?全面评测 10 款苹果 M 芯片和 3 款 NV GPU 性能

https://www.apple.com/newsroom/2024/10/new-macbook-pro-features-m4-family-of-chips-and-apple-intelligence/


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论