最近爆火的无矩阵乘法的大模型架构是怎么一回事？ - 文章 - 开发者社区

最近在“Scalable MatMul-free Language Modeling”的研究工作中，提到了消除大模型中的矩阵乘法 (MatMul)，并且在某些任务上还能击败传统LLM，获得更低的显存、延迟上的消耗。

矩阵乘法是一种代数运算，使用两个矩阵相乘以产生第三个矩阵，条件是第一个矩阵中的列数必须等于第二个矩阵中的行数。

在LLM中，矩阵乘法用到的地方可是非常多的，比如multi-head-attention，feed-forward-netword等模块中。目前，推理框架使用 CUDA 和 cuBLAS 等库可以使用强大的 GPU 并行化从而加速 MatMul 操作，提高运行效率。但是，这仍然占LLMs训练和推理阶段计算费用的大部分。

论文地址如下：


        
          
https://arxiv.org/abs/2406.02528

先看效果：

picture.image 2.7B MatMul-free LLM 在 ARC-Challenge 和 OpenbookQA 基准测试中的表现优于 Transformer++！

MatMul-free LLM 是在对传统 LLM 架构进行了三个关键结构修改：

MatMul-free Dense Layers
MatMul-free Token Mixture or Self-attention
MatMul-free Channel Mixer

MatMul-free Dense Layers

在MatMul-free Dense Layers中，受 BitNet 的启发，密集层首先被 BitLinear 模块取代。它们使用三元权重或权重矩阵中的权重，只能有三个可能的值 - -1 、 0 和 +1。此约束称为 Ternany 量化，用简单的加法或减法运算代替 MatMul 中的乘法运算。

BitNet 中的原始 BitLinear 层在 BitLinear 输入之前应用 RMSNorm 激活。然而，作者发现这种实现效率低下，因为它在 GPU 中不同类型的内存（HBM 和 SRAM）之间引入了许多 I/O 操作。因此，引入了一种新的层-hardware-efficient Fused BitLinear Layer，其中 RMSNorm 激活和量化步骤被融合到 SRAM 中的单个操作中，而不是使用多个内存操作单独执行。

MatMul-free Token Mixer

self-attention中涉及到，query、key、value的 MatMul，替换为修改后的门控循环单元 (GRU) 架构。

picture.image Self Attention vs. MatMut-free Linear GRU

候选隐藏状态计算与隐藏状态解耦，并简化为输入的线性变换；在隐藏状态和输出之间添加了一个依赖于数据的输出门（受到 LSTM 架构的启发）；所有权重均替换为三元权重，只有 -1 、 0 和 +1 三个可能值

MatMul-free Channel Mixer

这里对应的是transformers block中的feed-foward-network部分的通道融合。在无 MatMul 架构中，使用门控线性单元 (GLU) 作为通道混合器，而不是前馈网络。三元权重再次与 GLU 一起使用，以用更简单的加法和减法运算代替矩阵乘法。

picture.image MatMul-free GLU

性能功耗方面

关于内存效率，在所有模型大小上，MatMul-free LLM 都表现出比 Transformer++ 更低的内存使用量和延迟。对于 13B 参数的最大模型大小，MatMul-free LLM 仅使用 4.19 GB GPU 内存，延迟为 695.48 ms，而 Transformer++ 需要 48.50 GB 内存，延迟为 3183.10 ms。

picture.image MatMul-free LLM 与 Transformer ++ 之间的性能比较

使用 Field-programmable gate arrays (FPGA) 构建了定制硬件解决方案，以更好地执行无 MatMul LLMs 中的三元运算，进一步降低这些模型的功耗、延迟和内存使用量。他们的1.3B参数模型仅使用13W的功率，实现了人类的阅读速度，效率与人脑的功耗相似！

picture.image

最后

进行scaling的时候，MatMul-free LLMs 表现出出比 Transformer++ 更陡峭的损失下降。这意味着，进行更大尺寸的扩展，是非常有前途的。由于作者们面临资源限制，MatMul-free LLMs 尚未进行超大规模的测试，无法与 100B+ 参数的模型（如 GPT-4）进行比较。

-END-

右下角，帮忙点点

picture.image