备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
人工智能领域的一种新形态,大型语言模型(LLMs)已经影响到了每个科学领域和学科。它们的训练目标非常简单:在给定上下文的情况下预测下一个标记。作者生活在一个周围的数据大部分具有多尺度结构的世界,如文本、音频、音乐等。
本文将LLMs与信号处理中的小波理论相结合,在预训练过程中利用数据结构。
在学术设置下的GPT风格LLM架构中,并未添加任何额外的参数,作者几乎将文本、原始音频和符号音乐等预训练性能提高了一倍,而且不牺牲预训练性能。
这归功于对中间表示的结构的约束。当进行与预训练相同数量的训练步骤时,作者实现了显著的性能提升,这种提升类似于预训练更大的神经体系结构。
作者的体系结构允许每个下一个标记预测在Transformer解码块的每个时间分辨率访问中间表示。
这项工作有望为作者提供了将多速率信号处理思想融入传统LLM预训练的方法。
此外,作者通过改善内部结构来提升模型性能,而不仅仅是追求规模。
1 引言与相关工作
语言模型(LLMs)引领了人工智能模型的超级复兴,并涉及到每个科学和工程学科。这场革命的核心是 Transformer 架构,最初是针对自然语言处理中的机器翻译提出的。 Transformer 架构成为了由OpenAI首次提出的GPT 语言模型的(Brown等人,2020年) Backbone ,从而彻底改变了这一领域。现代LLMs仍然使用一个简单的目标进行训练:在提供前一个上下文的情况下,预测下一个 Token ,保持因果关系假设。确切的配方已经证明不仅适用于语言,还可以应用于机器人 ,蛋白质序列(Madani等人,2020),原始音频波形(Verma和Chafe,2021),音频和音乐 Token ,视频(Yan等人,2021)等。这种简单的配方(将 Token 化/创建嵌入并将其 feeds Transformer )也催生了许多非因果设置,视觉 Transformer ,音频 Transformer (Verma和Berger,2021)和视频 Transformer 等的架构。最近与Google类似 Gemini 家人的多模态语言模型的突然涌现(团队,2023年)以及多模态模型像Chameleon(2024年)将铺平未来另一波应用的道路。随着规模的增加,例如GPT-3的一些模型已经达到了百亿参数(Brown等人,2020年)的水平,而Google的Switch Transformer甚至达到了 trillion 参数(Fedus等人,2022)。这导致最近出现了人工智能研究正慢慢脱离学术界,并受到行业研究员的限制的观点。如最近由Nix(2024年)撰写的一篇华盛顿邮报文章中所述。
本文的主题是将模型的能力扩展至更大的架构或实现相同的性能所需训练步数更小。简而言之,作者在每个解码块之后取中间嵌入,并使用多尺度结构来表示层次性,而无需添加任何参数。作者在中间嵌入的每个信号中找到了信号(如图1所解释的)。对这些信号,作者采用类似于传统小波分解的方法,但保留了因果假设的近似信号。研究行人提出了一些使用更大的模型来提高小型架构性能的技术。
作者的工作与以下一些技术不同,并提出了一种在预训练期间提高性能的方法。其中最流行的一种是Hinton等人(2015年)提出的知识蒸馏,其中使用更多参数的大模型来指导小型架构。同时作者还发现了一种以KL散度为基础的生成文本(下一个单词预测)的方法,该方法以教师模型的反馈为基础,使用强大的模型来改进其性能而不是从零开始训练更小的架构。另一种工作通过Nawrot等人的上/下采样操作提出了层次转型,类似于Long等人(2015年)的hour-glass U-Net架构。在与Transformer Baseline 相同计算量的情况下,它可以更有效地产生相同的结果。作者的工作与Clockwork-RNN(Koutnik等人,2014年)有相似之处和巨大差异。Clockwork-RNN最初是为了改进RNNs中的长序列建模而提出的,它将RNNs的隐藏神经元分成不同的模块,每个模块都有不同的参数,并且以不同的(时钟)速率更新它们的状态。
因此,在前向和后向传播过程中,只有少量模块(权重)被激活和更新。这使得网络可以通过处理和保留不同速率的高效和低效模块中的长期信息来学习依赖性。作者的架构只用简单的修改来调整中间嵌入,而不引入复杂的单独学习模块或以不同的速率更新权重。另一方面,模型精简(Sun等人,2024年)通过影响性能来进行权重精简,以实现与大架构相同的表现,例如LLAMA(Touvron等人,2023年)在计算更少翻转的情况下。同样,目标是在一开始就使用一个预训练的大型模型,而不是尝试从头开始实现与大架构相同的预训练性能。此外,作者也不讨论Dettmers等人(2024年)提出的基于量化的算法,因为它们也专注于提高推理时间/翻转或微调现有架构。
与其他类似的工作一样,作者一直在研究中间表示的调优。Tamkin等人(2020年)在潜在空间中针对不同的任务,如命名实体识别和主题建模提出了针对非因果架构(如BERT)的定制化余弦变换。然而,他们进行了整个上下文长度的离散余弦变换。因此,这种方法无法适应像语言建模这样的应用,预测给定的上下文中下一个标记。已经有一些关于将类似于信号处理方法的思路应用到像BERT这样的非因果架构上的论文,作者将在这篇论文中讨论两种与作者当前论文相关的相关论文:FNet和WavSPA,它们都是为BERT类似的架构提出的。这两种论文都提出了改进注意块的变体,这与作者在仅包含因果解码器的架构上如GPT的工作不同。FNet是由Lee-Thorp等人提出的(2022年)。它提出了一个2D FFT块,以取代昂贵的注意力机制,但这种操作是非因果的,因为它在计算2D FFT时考虑到未来的标记。另一方面,WavSPA(Zhuang等人,2024)在波let空间中计算注意块。
该假设是,由于小波变换是一种在多个时间尺度上捕捉长期依赖性的多分辨率变换,输入序列被转换到小波空间,然后进行注意机制操作,最后再进行重建。然而,这种操作的一个显著缺点是,操作是非因果的,也就是说,为了计算小波变换,需要查看整个序列长度以捕捉从最粗糙到最精细的变化(如图1所示(Zhuang等人,2024))。
因此,这样的修改无法适应像GPT这样的解码器仅架构。正如作者所见,在作者的工作中,作者仅修改中间表示,保持其余架构不变,并以因果的方式进行修改。作者的工作也受到了神经科学的影响,研究表明人类大脑在多个时间尺度上学习多种尺度的语言表示,而不是固定的分辨率表示(Caucheteux等人,2023年)。正如作者所见,在作者的工作中,作者还将在预训练阶段为每个中间解码器嵌入式添加多尺度表示。
本文的贡献如下:
- 作者提出了将小波引入大语言模型的第一实例。作者使用哈拉小波在Transformer解码器的每一个中间表示的中间滤波器上添加多级滤波器。这种架构使得每个下一个标记预测都能够访问Transformer解码器中每个中间表示的多级表示,而不是固定的分辨率的表示。
- 作者表明,不需要额外的参数,可以在40-60%的范围内显著加速基于Transformer的LLM的预训练。这一发现对于广泛应用于各种模式下的基于Transformer解码器的架构来说具有重要意义。作者还表明,在相同的训练步骤下,模型能够给予非平凡的显着性能提升,类似于添加几层或参数。
- 作者表明,对于关于验证损失的预训练任务,在三个不同的模式下添加基于小波的操作可以带来性能提升。这三个模式是语言(文本-8,Mikolov等人,2012年),原始音频(YouTubeMix,Goel等人,2022年)和符号音乐(MAESTRO,Hawthorne等人,2019年)。这表明作者的方法对于结构化数据集具有足够的通用性。
- 作者还探索了将这些核变得可学习,这只需要添加微小的参数份额,与主要模型相比,从而使作者的模型性能进一步提升,允许模型从零开始学习中间表示上的多级滤波器。
2 Dataset
作者利用三个开源数据集来展示作者提出的方法的强大之处。此外,作者选择它们来自三个不同的领域:自然语言、符号音乐和原始音频波形。对于文本,作者选择text-8(Mikolov等,2012年)。
作者选择这个数据集,因为 i)它是一个广泛引用的用于文本和的字母级语言模型数据集,ii)为了使用简单的词汇(空格+26个小写字母)来分离作者的结果中的各种分词器的影响,至少在某一个模态中。
它包含了训练、验证和测试时使用的字符数量,如下所示为Al-Rfou等人(2019)所述。作者在除了文本的两种其他模态上报告了结果:原始波形和符号音乐。对于原始音频,作者的目标是预测给定一个样品的上下文。作者使用已经用于长期上下文建模的YouTube-Mix-8数据集(Goel等人,2022年;Verma,2022年)。
在这里,由于作者使用的是8位信号,因此作者的词汇量大小为256,采样率为16KHz。作者使用的是由黄等人(2019年)提出的Google分词器,可以将其转换为具有词汇量388的离散标记。一个需要注意的重要点是,在这三种模态中的目标并不是追求最先进的表现,因为这篇文章是在具有非常有限计算资源的学术环境中撰写的。作者的目标是将GPT类似的架构缩小,并对比预训练性能,与/或在嵌入层中添加多尺度结构,而无需添加任何额外的可学习参数。
3 Methodology
本文节将介绍将小波变换集成到基于 Transformer 的大语言模型中,同时保留因果假设的方法。此处描述的想法具有通用性,并可以轻松地推广到没有 Transformer 架构的设置中。
Incorporating Wavelets into Intermediate Embeddings
对于任何信号,作者都将计算离散小波变换的一个版本(作者将详细描述),并将它重新引入信号中。假设是第层解码器的输出,表示第个坐标的激活。这个激活信号将具有与基于 Transformer-based GPT 模型的 Transformer 上下文长度相等的维度。在作者的情况下,作者称上下文长度为 。现在,假设在原始 GPT 架构中,有 层,嵌入维数为 ,那么在两个解码器块之间的所有中间嵌入之间,作者将得到长度为 的 个信号。在作者的情况下, 维度从 [0-128) 范围。
Introduction to Wavelets
一个小波(wavelet)是一种信号,通常具有零均值和非零范数。小波变换最初是设计用来克服传统傅里叶(Fourier)表示的局限性。对于任意信号,离散小波变换可以理解为对信号通过具有不同分辨率的滤波器,如图2所示。在最简单的情况下,作者将使用哈夫小波(Haar wavelet),一种在本文中呈方形的小波函数家族。这个家族是通过缩放和移位操作得到母小波函数的。对于母小波函数,作者得到子小波如下:
\psi_{j,k}[n]=\frac{1}{\sqrt{2^{j}}}\psi\left(\frac{n-k2^{j}}{2^{j}}\right) \tag{1}
是缩放因子, 是位移因子。这些只是被移动和缩放以捕获感兴趣信号在不同时间尺度上的信息的信号, 表示时间或者在作者案例中的上下文长度。这应该立即让作者联想到捕捉Transformer解码器中间层中不同分辨率下所存在各种信号的图1,这与作者所需要的捕捉不同信号的行为类似。现在作者定义离散小波变换。简单来说,它可以通过滤波和下采样操作通过任何信号。这个操作,正如图2中所示,立即让人想起与卷积神经网络如Resnet(He等人,2016年)相似,它由类似于和的可学习的卷积滤波器以及像max池的下采样操作组成。在传统的最先进卷积架构中,作者通常遵循图2中的一条分支,即作者取滤波器的输出,降采样,并递归地进行此操作。这也可能是卷积神经网络在20世纪90年代初和2000年代在图像理解方面异常流行的原因,因为可以看到与卷积架构的相似之处(Huang和Aviyente,2008年; Kingsbury和Magarey,1998年)。
让作者假定作者选择一组小波(在作者案例中是Haar小波);那么这将类似于通过对应于该小波变换和 Kernel 的低通和高通滤波器中的信号。在Haar小波变换的情况下,它只是取平均和差操作,即和的脉冲响应分别为[1/2,1/2]和[1/2,-1/2] 。让作者看图2对离散小波变换进行更详细的解释。令是任何1D长度信号。为了得到Level 1系数,作者将其通过两个具有脉冲响应和并伴有下采样操作的滤波器。
因此,近似系数和仅仅是卷积和下采样(在这里是对两个)定义的LTI系统的输出,正如方程2所示。这就是为什么作者1在算法1中使用模仿这种行为的卷积操作核。
\begin{aligned} y_
现在,为了获取原始信号的多尺度表示,作者对 进行与 类似的递归操作,得到Level 2小波系数 和 (详细)等等。在作者的情况下, 是在每个解码模块中的每个坐标处跨上下文长度得到的临时信号。通常,描述近似系数 和 的信号集合以及它们的分解,即 等等,用于进行各种其他应用的处理。作者知道, 等将具有比 2,4,8等更小的长度。Haar小波变换可以通过递归地走近似系数和平均相邻两个样本进行操作。为了保持因果假设,作者可以保留当前和过去样本的平均值。
作者可以通过查看稍后的图2 了解更多信息。通过仅走近似系数的道路,作者可以看到较高的近似系数在更大的上下文长度处捕获平均值,而 Haar小波变换通过对信号的平均和差异计算,捕捉信号在不同的分辨率下的低和高频率。这在图2 中可以看到,同样的信号在粗略的分带上得到,然后使用 Haar 小波在更精细的细节分带上得到更好的表示。作者对中间的嵌入进行操作,允许每个下一个标记预测访问这样的表示。
Connecting wavelets and LLM embeddings
在许多信号处理应用中,首先阶细节系数和所有近似系数都用于理解信号在各种 Level 的内容。作者打算执行相同的操作,但作者现在正在获取来自中间 Transformer 嵌入的信号。然而,作者并不关心细节系数,而是专注于近似系数。这是作者基于前提的事实:作者周围的现实世界数据结构。对于文本,不同 Level 的结构范围从字母、单词、句子、段落、话题模型等。在符号音乐的案例中,可以将其视为音乐主题到作品的音符等。因为作者在这项工作中选择了小波Haar,可以将此近似为简单平均操作,如前文所述。如果作者继续沿着近似系数的路径走下去,最终将只有一个标量,那就是Haar小波特例下整个信号的平均。为了从近似系数得到与原信号相同的序列长度,可以有多种方法,其中一种方法是 Transformer 信号回到原来的长度。
为了准确地识别与近似系数有所不同长度的近似信号,作者在命名时称为特定 Level 的近似信号与该 Level 的近似信号长度相同。在图2(R)中,为了得到各种 Level 上与原始输入信号相等的近似信号的信号近似,近似系数进行加权平均操作,通过在特定 Level 的波束核上乘以该 Level 的近似系数得到。([1,1], [1,1,1,1],…等)。这将体现在分段常数函数中,如图2所示。作者可以看到,对于LLM嵌入的不同嵌入坐标,作者定义了不同的分辨率核,每个核都对应于作者需要捕获数据的特定尺度。
在Haar小波的情况下,使用简单平均操作,作者取输入信号随核长变化的移动平均。在继续增加核长的平均值以达到上下文长度(当单个标量近似整个信号)之前,作者一直保持核长的增加。核长决定了作者关心的信号逼近 Level 。由于LLMs在输入信号和给定的核长下基于因果性假设工作,如果没有需要,作者可以通过计算核内输入信号的前样本的移动平均值来得到信号在位置上的修改值。对信号进行左零填充,以考虑到信号长度小于核长的情况和标记维度。不同 Level 的离散Haar小波变换给出同一信号的多个版本。这可能产生更多相同的信号副本,并破坏中间Transformer嵌入的特征结构和维度。为了避免这个问题,作者对不同信号逼近的多分辨率进行设计。在4.4节中,作者将这些 Kernel 变为可学习的,允许架构保留移动平均相同的操作,但允许 Kernel 不是常数,而是可学习的。作者现在观察信号的分辨率由模型维度的坐标参数化,这一点将在下一节中详细解释。
一种选择是将每个译码层中的每个坐标的每个信号计算为层次I,II,III,IV,等等的近似信号。这将使信号的数量大幅提升。例如,对于一个上下文长度为512的信号,作者需要九个具有512、256、128、64、32、16、8、4和2分辨率率的副本,描述原始信号的I到IX系数。这会极大地增加作者架构的复杂性,在作者的情况下是GPT,并将需要通过使用多个附加分辨率的信号进行显著的架构更改。为了减轻这种复杂性,作者提出了一种新颖的解决方案:作者不计算每个中间嵌入维度信号的每个标记上所有层次的近似信号。作者通过嵌入维度本身的索引参数化要计算的近似信号的层次。作者还希望将嵌入仅引导到作者强加的归纳偏见中。
变形Transformer在没有集成归纳偏见的情况下取得了巨大的成功。理想情况下,作者想保留中间GPT嵌入的一半维度。为此,作者在坐标维度的精确分辨率保留一半的嵌入信号,即不改变。对于从64到128的嵌入坐标(E/2到E,模型维度为128时,作者不做任何处理或操作。对于另一半,作者根据它们的索引进行一些处理。以数学方式表示,如果是第l个译码层沿第i个坐标维度后的中间嵌入,那么对于修改后的新信号的坐标维度的第二半,它将与原始近似信号在索引i的范围(0-E/2,0-64)内的近似系数对应于相同的值。对于第二部分,作者使用特定的近似信号通过特定的 Level 来强加结构。这主要是因为变形Transformer非常具有表达能力,作者希望避免对其学习的过度改动。而对于第二部分,是通过对原始嵌入信号获取相应的坐标i的波let系数来实现修改的隐空间。作者使用一个简单映射函数将坐标维度作为其参数。在作者的情况下,接受来自的输入,范围从0到(0-64),并返回I与IX之间的近似系数所对应的核心大小。作者使用一个简单的线性函数,在0到的范围内较慢地递增索引的值,从I递增到IX。所以当为0时,映射到I级近似核大小的2,而当为(在作者的情况下,64)时,映射到IX级近似核大小的512,(对于通用情况,对应于最粗糙的表示,即单个标量)。现在,让作者找出如何计算替换原始中间Transformer嵌入的修改后的新信号。表示坐标的 Kernel 大小。
如同方程4所述,这种简单的代数运算并没有在架构中添加任何参数。这保留了在LLM中至关重要的因果假设,并防止了任何参数泄漏到任何嵌入维度的未来标记。
作者可以使其这样,除了上面方程4中类似的简单平均值外,作者允许其学习一个特定于当前问题的最优核。作者在算法1中解释了这一点,其中每个修改后的信号在标记的表达的值是一个与学习 Kernel 卷积,其中可变 Kernel 长度由嵌入维度的坐标参数化。作者针对LLM中每个信号独立学习这些 Kernel 。
Imposing Structure: Toy Example
作者可以从图3中看到,作者展示了一个小实验,来说明如何将结构强加到解码器Transformer的嵌入上。在图3(左)上,顶部有八个沿着标记维度变化的波动,这些波动在标记索引编号32、64等处达到最大值或突然爆发,然后逐渐减小到下一个标记时的零,接着又线性增加到下一个区间内的最大值。正如在引言中提到的那样,作者周围的数据集具有内在结构。为了捕捉这种结构,作者在每个层的Transformer嵌入中强加结构。
对于这个小实验,作者可以从图3(左)中看到,没有底部,也就是说作者保留了嵌入维度的一半的精确值(被白色线划分)。对于嵌入维度的另一半,作者缓慢地增加上下文长度的核长,并因果地计算平均。当达到最后一个嵌入维度时,其移动最慢,并对每个标记维度的核大小进行平均(必要时进行填充)。
这创建了允许某些嵌入坐标以不同速度移动的高架,其中从到的坐标与Transformer决定的速度相同,而从到的坐标线性地从与相同速度移动到最慢。让每个解码器层中的嵌入以不同速度移动,从最低可能的速度到原始速度,并允许注意力机制在每层每个标记处利用移动速度不同的多尺度特征,这是下一节中一个引人入胜的想法。
4 Experiments
在本节中,作者解释了如何将小波注入到大规模语言模型预训练中。作者从头训练了所有的模型,这需要大量的运算。
然而,这些实验的主要目标是为了展示随着/不进行嵌入的中间修改,模型的性能如何在三种模态上有所提升。由于作者在使用小波变换修改中间嵌入时,没有添加任何参数,因此作者可以比较两个模型之间的性能提升程度和加速效果。
Baseline And Training Setup
所有模型都类似于GPT-2架构,都由Transformer解码层堆叠而成。由于每个模型都需要从头开始预训练,所以作者选择以下设置。每种模态(文本、符号音乐和原始波形)都有相同的架构拓扑,具有512的上下文长度。作者选择解码块的数量为10,维度为128的嵌入维度、512的前馈维度和8个head。
在Transformer块中,注意力块之后,作者选择使用两个MLP层而不是通常使用的单个层,这两个层共享相同的神经元数,即512,与前馈维量的相同。将词向量的解码器最后输出层之后,跟上2048个神经元的密度层,然后跟上与词汇大小相同大小的密度层。这三个模态中的词大小各异。对于文本8,为27,即字符数量加一个额外的空格标记。对于原始波形,作者使用16kHz的8位分辨率波形,这与Goel等人(2022年)和Verma(2022年)报告的数据类似,因此词汇量为256。对于符号音乐,作者使用Google的表示器(Huang等人,2019年)将MIDI数据转换为离散标记,结果为388大小的词汇。所有三种基础模型都只是Transformer解码层的堆叠,没有调整任何嵌入。对于作者在前文解释的 Proposal 架构,作者保留了嵌入维度的一半坐标,没有做任何调整。
对于另一半,作者施加了一个多层次结构参数由嵌入维度的坐标定义的多倍尺度的结构。在这个设置中,作者添加了没有任何单个参数的参数,并将其与所有三个模态的性能相比较。作者进行这样做的原因是作者想要展示作者的算法对于各种模态(LLM预训练)的丰富多样性。作者没有将这些强大的、更大规模的模型与追求尺度的模型进行比较,因为这篇论文需要从零开始预训练。
相反,作者选择了一个在学术界可供有限资源使用的缩小版的GPT-2架构,并与添加小波的架构进行了比较。在预训练性能方面。所有模型都在Apache的张量流(Abadi等人,2016年)框架中从零开始训练了25个周期。作者使用对称策略进行多GPU训练。学习率调度被设置为开始时减少到1e-5,当损失开始达到平台时。所有三个模型中的可用的训练点为1M,共得到1/20亿个标记。
这些随机裁剪自选择的数据集。除在MLP和注意力层中设置默认的0.1dropout率为外,没有进行任何正则化。作者选择的比较指标只有负对数似然损失,因为这种方法改进了基于Transformer的GPT-2的核心架构,并帮助作者实现作者想要实现的目标:预测下一个标记。由于作者工作的是中间的词向量,作者希望作者的工作可以推广到类似文本、原始音频和符号音乐的以结构化数据设
Performance on modalities
表1:负对数似然度(NLL)得分(以自然对数为基础)对比作者的架构与三种模态(有无 wavelet-based 分层结构和学习可变上下文长度的可学习小波变换)在相同训练步骤下的表现。
在本节中,经过修改后,作者比较了 Baseline 架构在不同模态上(文本、符号音乐和音频波形)的性能,即有无 wavelet-based 中间操作。可以看出,在相同数量的训练步骤下,作者显著提高了所有三个模态的性能。举个自然的类比,验证损失的降低 0.04 可比在文本-8数据集上的 16 层架构,转换为 64 层模型(论文-代码,2024)。如图4 所示,作者在缩小的 GPT 架构的训练步骤下实现了与原始架构几乎相同的损失。这与 GPT 类架构的实际应用作者的结构(对一半的嵌入维度)非常有利,因此,达到损失趋于平稳的状态所花费的周期数/步骤数更小,这对于原始音频至关重要。
波形收敛速度甚至比文本-8和符号音乐慢一半。作者还将非可学习设置和可学习设置下的修改的绝对时钟运行时间进行了对比。作者报告了相对于 Baseline 架构完成一个周期的耗时。从表1 中可以看出,作者的方法在计算上是经济的,因为在 Haar 小波或仅学习一个带有可变上下文长度的单滤波卷积核(对于案例中的情况是学习一个简单的平均值)。
深度和模型维度的效应
在这里,作者探索了作者架构的两种变体 - 如果将模型维度从 128 降低到 32,并将Transformer解码器架构的数量从 10 层减少到 8 头,以及将模型的层数从 10 层减少到 8 层。作者针对文本-8进行了所有实验。可以看到,作者将模型维度减少到 32 的 10 层 Transformer 解码器架构的变体具有比 Baseline 更好的性能,几乎两倍于 Baseline ,并在大约 10 个周期内达到无需修改的性能(如 Baseline )。
第二个实验中,作者将保持正如作者在表1 中报告的实验中所提出的架构。然而,作者现在只有 6 个 Transformer 解码器层(保持其余参数相同,即前馈维度是模型维度的四倍,有 8 个注意力头)。以看到深度的影响。作者发现模型继续持有,并再次在大约 25 个周期内实现与约 25 个周期训练的模型相同的表现。这两个实验都如图4 所示。
Making multi-scale kernels learnable
正如 previous 部分中所述,作者可以看到,通过在 Transformer 解码层上添加没有参数的多尺度结构,可以显著加快预训练。在这个实验中,作者允许每个核函数都是可学习的。在 previous 部分中,作者将核函数的形状定义为哈达小波。作者观察了所有层的中间层激活的近似系数,这些系数在不同的嵌入维度上有不同的分辨率。现在,在这个实验中,作者允许每个核函数都是可学习的。所以现在,而不是一个哈达小波操作,作者允许每个核函数根据各种分辨率,学习得到 近似信号。以前,作者在特定嵌入维度上采取平均值计算 近似信号,它与长度为 L 的核函数(1/L,1/L,1/L,1/L...)进行卷积。
在这个实验中,作者将长度为 L 的核函数从零开始学习,这是计算 近似信号 的另一种方式。对作者 的基础模型进行这种简单的操作,只会让 Transformer 解码器架构增加0.02M(20k)的额外参数。与 previous 的设置不同,这次增添了额外的参数,这使得作者的性能从40%提升到46%的加速,以达到与图4中相似的 Baseline 性能。这一操作是在 text-8 数据集上完成的。所有结果都基于计算到基 e 的交叉熵损失报告。这进一步验证了作者的方法,并展示了作者工作的进一步改进和优势。
5 Long Range Arena Benchmarks
作者将作者的架构调整为适应Tay等人(2021年)的长范围竞技场(LRA)任务。它包括各种数据集,使模型能够处理跨域的序列任务并进行长程预测,从而推动了Transformer架构以及其它变体的能力。作者使用三种模态:文本、图像和数学表达式来测试模型理解相似性、结构和在扩展上下文中进行推理的能力。作者只使用基于Transformer的结构,如最近由Liu等人报告的那样。其他变体是状态空间结构和混合模型。
对于文本,作者在IMDb评论数据集(Maas等人,2011年)上进行分类,输入是在位级数据上进行文本分类,输入长度为2048,输出是正负评论的二元分类。对于图像,作者使用CIFAR-10作为LRA基准测试的一部分作为图像模态。这是一项像素级的图像分类,输入是一个由0-255的值组成的序列,长度为3072,输出是十个类别中的一个。最后,作者在Long ListOps上进行基准测试。它测试架构在扩展上下文中理解层次结构数据的能力。
6 Conclusion and Future Work
作者展示了将核心信号处理理念——小波,引入大型语言模型预训练的强大集成方法。
通过在每个中间嵌入上施加多级结构,作者发现与相同的基本架构相比,无需额外的参数,可以实现40-60%的性能提升,且比 Baseline 架构快。如果在相同数量的时间内进行训练,作者的方法可以获得显著的性能提升。
作者的方法可以跨三种模态:原始文本、符号音乐和原始音频,这些模态的性能提升速度相似。在未来的工作中,可以探索一些令人兴奋的方向,包括将更先进的小波和多分辨率信号处理理念集成到大型语言模型中。
如何观察模型对不同多级结构的变体的行为将是很有趣的。
参考
[1].WaveletGPT: Wavelets Meet Large Language Models.