最近爆火的无矩阵乘法的大模型架构是怎么一回事?

最近在“Scalable MatMul-free Language Modeling”的研究工作中,提到了消除大模型中的矩阵乘法 (MatMul),并且在某些任务上还能击败传统LLM,获得更低的显存、延迟上的消耗。

矩阵乘法是一种代数运算,使用两个矩阵相乘以产生第三个矩阵,条件是第一个矩阵中的列数必须等于第二个矩阵中的行数。

在LLM中,矩阵乘法用到的地方可是非常多的,比如multi-head-attention,feed-forward-netword等模块中。目前,推理框架使用 CUDA 和 cuBLAS 等库可以使用强大的 GPU 并行化从而加速 MatMul 操作,提高运行效率。但是,这仍然占LLMs训练和推理阶段计算费用的大部分。

论文地址如下:


        
          
https://arxiv.org/abs/2406.02528  

      

先看效果:

picture.image 2.7B MatMul-free LLM 在 ARC-Challenge 和 OpenbookQA 基准测试中的表现优于 Transformer++!

MatMul-free LLM 是在对传统 LLM 架构进行了三个关键结构修改:

  1. MatMul-free Dense Layers
  2. MatMul-free Token Mixture or Self-attention
  3. MatMul-free Channel Mixer

MatMul-free Dense Layers

在MatMul-free Dense Layers中,受 BitNet 的启发,密集层首先被 BitLinear 模块取代。它们使用三元权重或权重矩阵中的权重,只能有三个可能的值 - -1 、 0 和 +1。此约束称为 Ternany 量化,用简单的加法或减法运算代替 MatMul 中的乘法运算。

BitNet 中的原始 BitLinear 层在 BitLinear 输入之前应用 RMSNorm 激活。然而,作者发现这种实现效率低下,因为它在 GPU 中不同类型的内存(HBM 和 SRAM)之间引入了许多 I/O 操作。因此,引入了一种新的层-hardware-efficient Fused BitLinear Layer,其中 RMSNorm 激活和量化步骤被融合到 SRAM 中的单个操作中,而不是使用多个内存操作单独执行。

MatMul-free Token Mixer

self-attention中涉及到,query、key、value的 MatMul,替换为修改后的门控循环单元 (GRU) 架构。

picture.image Self Attention vs. MatMut-free Linear GRU

候选隐藏状态计算与隐藏状态解耦,并简化为输入的线性变换;在隐藏状态和输出之间添加了一个依赖于数据的输出门(受到 LSTM 架构的启发);所有权重均替换为三元权重,只有 -1 、 0 和 +1 三个可能值

MatMul-free Channel Mixer

这里对应的是transformers block中的feed-foward-network部分的通道融合。在无 MatMul 架构中,使用门控线性单元 (GLU) 作为通道混合器,而不是前馈网络。三元权重再次与 GLU 一起使用,以用更简单的加法和减法运算代替矩阵乘法。

picture.image MatMul-free GLU

性能功耗方面

关于内存效率,在所有模型大小上,MatMul-free LLM 都表现出比 Transformer++ 更低的内存使用量和延迟。对于 13B 参数的最大模型大小,MatMul-free LLM 仅使用 4.19 GB GPU 内存,延迟为 695.48 ms,而 Transformer++ 需要 48.50 GB 内存,延迟为 3183.10 ms。

picture.image MatMul-free LLM 与 Transformer ++ 之间的性能比较

使用 Field-programmable gate arrays (FPGA) 构建了定制硬件解决方案,以更好地执行无 MatMul LLMs 中的三元运算,进一步降低这些模型的功耗、延迟和内存使用量。他们的1.3B参数模型仅使用13W的功率,实现了人类的阅读速度,效率与人脑的功耗相似!

picture.image

最后

进行scaling的时候,MatMul-free LLMs 表现出出比 Transformer++ 更陡峭的损失下降。这意味着,进行更大尺寸的扩展,是非常有前途的。由于作者们面临资源限制,MatMul-free LLMs 尚未进行超大规模的测试,无法与 100B+ 参数的模型(如 GPT-4)进行比较。

推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

-END-

右下角,帮忙点点

picture.image

+ picture.image

0
0
0
0
评论
未登录
暂无评论