残差连接的进化,LAuRel 在 ResNet-50 上的性能突破,以极低参数实现性能大幅提升 !

大模型向量数据库机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

Abstract

深度学习方法高效性的核心 Pillar 之一是架构改进,如残差/ Shortcut ,这导致了模型收敛速度和质量的巨大提升。自那时以来,残差连接不仅广泛应用于卷积神经网络,还应用于基于 Transformer 的架构,成为LLM的核心。

在本文中,作者提出了 Learned Augmented Residual Layer (LAuRel) - 一种针对典型残差连接的新颖泛化方法,目标是成为后者的实时替换,同时在不降低模型质量和占位符指标的情况下超越前者。

作者的实验表明,使用LAuRel可以帮助提高视觉和语言模型的性能。

例如,在ResNet-50,ImageNet 1K任务上,它比添加额外一层实现了60%的性能提升,而仅增加了0.003%的参数,且在增加2.6倍较少参数的情况下与之相匹配。

1 Introduction

模型效率在极端大规模的语言和视觉模型时代中至关重要。即使给定模型的质量良好,其训练时间计算需求、推理延迟、驻留内存大小等足迹指标决定了它是否可以在实际环境中实验和/或部署。这些指标直接关系到将模型部署到生产环境中的财务成本,以及依赖于这些模型的系统的用户感知响应性。

因此,通过高效深度学习方法提高模型质量与占用的帕累托前沿,是近年来人工智能领域的研究热点。研究领域包括算法技术(Menghani,2023年)、高效硬件(Sze等人,2017年)以及模型效率最佳实践(Dehghani等人,2022年)等。

深度学习高效方法的核心 Pillar 之一是架构改进,如残差/ Shortcut ,这使得模型收敛速度和质量得到了显著提升(He 等人)。从那时起,残差连接不仅广泛应用于卷积神经网络,还应用于基于 Transformer 的架构,成为语言模型(LLM)的 Backbone 。

在本文中,作者引入了自学习的增强残差层(LAuRel),它泛化了典型的残差连接。回想一下,具有残差连接的深度学习模型具有“模块”结构,许多模块在输入和最终输出之间链接在一起;这些可以是ResNet中的卷积/标识模块,以及在 Transformer 编码器/解码器中的 Transformer 模块等。在一个模块内,典型的残差连接可以表示为:

在这里,可以表示任何非线性函数,如注意力、MLP、多层非线性等,是给定的非线性函数的输入,而是非线性函数和残差成分的组合输出。请参阅图1进行说明。为了简化阐述,作者忽略了层范数等预处理函数,这些函数可以无损地折叠到中。

picture.image

2 Learned Augmented Residual Layer

在本节中,作者描述了LAuRel背后的主要思想。在最一般的形式下,作者将残差连接重述为:

picture.image

这里α是一个学习的标量参数,而g(·)是一个学习的线性函数,其中xi,xi-1,...,x0作为输入,xj是第j个残差连接的输出。LAuRel的直觉是,作者可以通过将xi作为残差组件之外,学习一组更丰富的(线性)函数。寻求这些更丰富的线性函数的一个动机是“残差流”(Elhage等人,2021年)的概念,其中残差连接被认为是一个通过每个层的信息流的一部分,而没有暴露于任何非线性。这使得学习过程可以更好地关注非线性组件。

每一层/操作都可以从残差流中读取,并根据它所读取的内容向残差流写入。考虑到残差连接已被证明对于模型质量和收敛性至关重要,作者设计LAuReL以学习方式在残差流上操作,同时保持模型大小和延迟变化轻量。

在本文中,作者研究了LAuReL框架的三个特定版本;尽管如(2)中所述,该框架可以超越这些版本进行泛化。

Residual Weights Version (LAuReL-RW)

在这个版本中,作者保持α可学习,并设置 。因此,(2)可以重写为:

请注意,这个版本为(1)中的和分配了可学习的权重。在实际中,作者发现作者不能让和无限制地增长,使用如softmax这样的归一化函数有助于。显然,这个版本在每个LAuReL层中只会添加两个新的参数。如果需要,作者始终可以将这两个参数替换为一个可学习的参数,并使用sigmoid函数以这个单一参数来定义。

Low-Rank Version (LAuReL-LR)

在这个版本中,作者固定 ,并将(2)中的 。

其中是可学习的。请注意,如前所述,是一个矩阵,其中是模型维度;因此这将向模型中添加个新的参数(每个LAuReL层)。

在实际中,为了减少向模型中添加的新参数的数量并帮助收敛,作者考虑了的低秩版本。特别地,令,其中和是矩阵,且。因此,作者可以将(2)重写为:

picture.image

这里,矩阵 和 都是可学习的。新增参数的数量为 。

Previous Activations Version (LAuReL-PA)

在本版本中,作者使用之前块的激活值。特别地,作者设置 ,其中 是学习参数, 是一个线性函数。1 这使得作者可以将 (2) 重写为:

在实际应用中,作者用类似于LAuReL-LR版本的一低秩乘积来代替。新增参数的数量为,其中为层数。

请注意,上述三个版本都是将标量和/或低秩产品与(1)中的基本残差连接相结合。这使得LAuReL在模型大小和延迟方面的影响特别轻量级。此外,该框架足够通用,可以允许上述版本的组合以及新的版本。

3 Experiments

作者在两个领域中实验LAuRel,即视觉和语言。对于第一种情况,作者的目标是提高ResNet-50模型在ImageNet-1K数据集(Deng等人,2009年)上的图像分类准确性。对于第二种情况,作者的目标是提高在预训练阶段后的语言模型在常见基准测试上的性能。

这些实验的底层动机不一定是为了改进最先进的结果,而是要展示LAuRel如何可以轻松地集成在具有残差/ Shortcut 的常见模型架构之上,以实现更好的模型质量和计算资源消耗之间的权衡。

ResNet-50 on ImageNet-1K

在这个设置中,作者在ImageNet 1K数据集(Deng等人,2009)上训练一个标准的ResNet-50模型,使用16个Cloud TPUv5e芯片在一轮(epoch)中进行,同时启用数据增强。为了获得一个强大的 Baseline ,作者微调了模型的学习率调度,并选择了一个在5次试验(trials)中最大化最佳准确率@1值的调度方案(在本小节中,作者简称为准确率)。作者获得的 Baseline 模型在准确率为74.95±0.016%。

此外,作者还发现,如果作者仅仅将另一层添加到ResNet-50模型(即简单的比例扩展),那么模型准确率可以提高0.25%,达到75.20%,同时增加4.37%的新参数。在这个背景下,将LAuRel应用于模型可以获得更好的结果(见表1)。

picture.image

如果仅使用LAuRel-RW版本,平均性能将提高0.15%,同时仅需要增加0.003%的额外参数,这在本质上可以忽略不计。当作者尝试使用r=16的LAuRel-RW+LR版本时,在增加1.68%的额外参数的同时,实现了75.20%的准确率;这与具有额外层的 Baseline 性能相匹配,同时使用了2.6倍较少的额外参数。此外,当作者使用结合了LAuRel-RW+LR+PA版本的版本时,将准确率提高至75.25%,同时仍然比具有额外层的 Baseline 使用了1.82倍的较少额外参数,这证明了LAuRel优于无根据地扩展模型。值得注意的是,尽管作者对残差连接进行了根本性的改变,但使用LAuRel时并未发现训练不稳定。

Decoder-only LLM Pre-training

在这种设置中,作者的目标是测试LAuRel在大语言模型(LLMs)上的性能。作为 Baseline ,作者选择了一个基于Transformer架构的3B参数解码器模型。作者从零开始预训练了 Baseline 模型和作者使用LAuRel的实验,使用了LAuRel-RW和LAuRel-LR版本()。这两个模型都使用1024 Cloud TPU v5e芯片进行了大约两周的训练,使用仅包含文本 Token 的预训练混合物。

值得注意的,LAuRel-RW+LR变体相对于 Baseline 模型仅增加了0.012%的参数。因为作者选择了,LAuRel-LR总共增加了个参数。通常,。因此,新增参数的数量微不足道,远小于原模型。

作者在诸如问答、自然语言理解、数学、代码等众多常见的语言模型任务上评估了预训练的 Baseline 模型和LAuRel模型;请参阅表2以查看结果。除了在MBPP数据集上,LAuRel在所有任务上都优于 Baseline 模型。有趣的是,这些成果仅需要额外0.012%的参数。

picture.image

由于预训练在计算上代价高昂,作者尝试了一个固定的值,并未尝试LAuRel-PA版本。可能是尝试类似于ResNet实验的不同变体可以进一步提高结果。

LauRel-LR: Rank vs Accuracy

作者注意到,对于在ResNet-50/ImageNet组合上的LAuRel-LR版本,随着的值不同,最佳准确率呈现一种模式。在LAuRel-RW+LR版本的组合中,作者尝试了不同的值,并计算了在5次试验中最佳准确率@1的平均值;请参见图3。从表1中,仅使用LAuRel-RW版本时,作者已经实现了平均最佳准确率@1的75.10%。因此,对于LAuRel-RW+LR版本的组合,作者希望看到准确率超过这个值。

picture.image

作者观察到,当 较小时(),在低秩乘积中的 Baseline LAuRel-RW 实验没有显著改进。这可能是因为一个非常小的 充当了信息 Bottleneck 。随着 的增加,准确率在 时达到最大;超过这个值,准确率似乎下降,但仍高于 LAuReL-PW Baseline 。作者认为这种单模现象可能是由于模型中参数数量增加导致的,在 线性增长,这需要适当调整超参数,如学习率以及正则化惩罚。

4 Related Work

由于作者的更大目标是提高深度学习模型的训练和推理效率,作者简要讨论一些旨在提高模型效率的研究方向。

架构变化:作者的工作受到了如LoRA(Hu等人,2022年)和AltUp(Baykal等人,2023年)等近期模型架构改进的启发。然而,它们与LAuReL并不直接相关。实际上,LoRA旨在高效地微调大型预训练模型,通过在微调阶段引入低秩的' Adapter '权重,这些权重是在训练阶段学习的,而其他模型权重保持不变。相比之下,LAuReL在残差连接 Level 工作,这可能涉及多个参与函数的权重矩阵;此外,它是在预训练阶段应用的。

AltUp (Baykal等,2023年) 旨在在不支付额外成本的情况下复制具有大型模型维度的模型的质量改进。它工作在 Transformer 块 Level ,构建并行“轻量级” Transformer 块来近似模型维度的扩展效应。相比之下,LAuReL 工作在残差连接 Level ,并不旨在复制维度扩展效应。

有趣的是,LAuReL可以与LoRA(在微调期间)和AltUp(在预训练和微调期间)相结合。

He & Hofmann (2023) 提出了一些改变来改进Transformer块以提高模型收敛性;然而,这些建议仅限于Transformer块。

压缩技术 :Bucilua等人(2006)提出的模型压缩技术(如量化,Krishnamoorthi,2018; Jacob等人,2018),包括三态网络,通常用于减少模型大小和推理延迟。同样,剪枝和模型稀疏性技术也已在硬件中得到探索和实现。

学习技术:蒸馏是一种使用“软标签”从大型、实际不可行(教师)模型(Sanh等人,2019年)改进较小(学生)模型质量的流行技术。一些蒸馏变体还提出学习中间表示。其他技术包括堆叠(Reddi等人,2023年)和RaPTr,它们逐步增长并训练网络以实现改进的模型质量,同时减少模型训练时间。

5 Conclusion

在本文中,作者提出了LAuReL框架,这是一种新颖的架构变化和残差/ Shortcut 的一般化,旨在在不显著增加模型大小或延迟的情况下提高模型质量。

参考文献

[0]. LauRel: Learned Augmented Residual Layer.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论