Meta-LoRA:引入结构化三层架构实现身份个性化,在身份保留与效率上表现优异!

大模型向量数据库云通信

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

近年来,文本到图像生成模型,特别是潜在扩散模型(LDMs),在从文本 Prompt 中合成高质量图像方面展现出卓越的能力。然而,实现身份个性化——确保模型从有限的参考图像中始终生成特定主题的输出——仍然是一个基本挑战。为此,作者引入了元低秩适配(Meta-LoRA),这是一个利用元学习将领域特定先验知识编码到基于LoRA的身份个性化中的新框架。llm-Meta-LoRA_2503引入了一个结构化的三层LoRA架构,将与身份无关的知识与特定身份的适配分离。

在第一阶段,LoRA Meta-Down层在多个主题上进行元训练,学习一个共享流形,该流形捕获了与身份相关的通用特征。

在第二阶段,仅优化LoRA-Mid和LoRA-Up层,专注于特定主题,显著减少了适配时间,同时提高了身份保真度。为了评估llm-Meta-LoRA_2503,作者引入了Meta-PHD,这是一个用于身份个性化的新基准数据集,并将Meta-LoRA与最先进的方法进行了比较。

作者的结果表明,Meta-LoRA在身份保留、计算效率和跨不同身份条件下的适应性方面均取得了优异的性能。作者的代码、模型权重和数据集已发布在barisbatuhan.github.io/Meta-LoRA上。

  1. 引言

近年来,文本到图像生成模型取得了显著进展,展现出从文本 Prompt 编码生成高质量图像的卓越能力[22]。其中,潜在扩散模型(LDMs)[15,21,23,28]被证明特别有效,利用深度学习在潜在空间中迭代优化图像。然而,从单张或少量图像中实现身份个性化——即生成准确捕捉特定主体形象且保持泛化能力的图像——仍然是一个重大挑战[36]。

生成模型个性化的主流方法大致可分为两种极端。一方面,DreamBooth [24] 和文本反转 [6] 等方法依赖于通用微调算法进行个性化。虽然这些方法在许多场景中有效,但它们完全依赖于预训练生成模型中嵌入的先验知识。然而,这些先验知识通常无法充分捕捉细微的领域特定特征,例如精细的面部细节。为了克服这些限制,通常需要使用丰富的主体示例并更新模型参数的显著部分,以实现准确的身份适应。参数高效的微调技术,例如低秩适配(LoRA)[10] 及其变体 [1, 8, 12, 16, 35],通过精心设计的结构约束参数更新来降低适配复杂度;然而,由于这些是通用的微调技术,它们与传统微调技术共享许多局限性。

在另一极端,基于前馈条件训练的方法[9, 17, 20, 30, 31, 33]训练类似ControlNet[34]的机制,以实时适应生成模型,从而避免了测试时迭代微调的需求。尽管因其无调适能力而具有吸引力,但这些方法需要大规模训练数据集和复杂的条件网络。此外,其纯粹的前馈结构实际上限制了其捕捉细粒度身份细节的能力。

在作者的工作中,作者旨在结合这两种范式的优势,融合学习领域特定个性化先验的能力,而不完全依赖于计算密集型的前馈调节模块。据作者所知,唯一与这一方向紧密相关的工作是HyperDreamBooth [25]。HyperDreamBooth引入了一种超网络架构,该架构被训练用于从输入图像中预测身份特定的LoRA权重,然后可以进行微调。然而,这种设计需要一个大型的元模型来将输入图像映射到所有每层LoRA组件,继承了纯前馈调节模型类似的缺点:容易过拟合和训练要求具有挑战性。

为克服上述局限性,作者提出了元低秩适配(Meta-LoRA)这一新颖框架,显著增强了基于LoRA的文本到图像生成模型中的身份个性化,同时保持了简洁性。具体而言,作者提出了一种结构化的元学习策略,以主题无关的方式预训练LoRA组件的子集,有效编码领域特定的先验知识。这产生了一个紧凑、可立即适配的LoRA结构,便于高效和精确地适配新身份;避免了先前工作中将图像转换为适配层的高复杂度模块[9, 17, 20, 30, 33]。由于作者的元学习产生了低复杂度的LoRA组件,与先前的基于条件的方法相比,它显著减少了所需的训练数据集大小。此外,最终的个性化阶段涉及一种简单的微调机制,自然支持各种定制,如增强和使用附加损失。

与传统的LoRA策略相比,llm-Meta-LoRA_2503引入了两个关键创新。首先,Meta-LoRA采用三层LoRA架构,专门设计用于促进身份领域的有效流形学习。LoRA Meta-Down层被训练以将输入投影到生成模型特征空间内的领域特定流形上,捕捉跨个体共享的通用身份特征。这个学习到的流形然后作为基础,有效地专门化后续的LoRA Mid和LoRA Up层到个体身份。其次,作者采用结构化的两阶段训练流程:首先,使用多个身份对Meta-Down层进行元训练,以编码鲁棒的领域特定先验知识,有效建立泛化特征表示。随后,对于给定的目标身份,作者仅使用单个(或一小组)示例图像对紧凑的LoRA Mid和LoRA Up层进行微调,从而实现快速和精确的个性化。这种方法不仅提高了身份保留和适应性,还显著降低了计算复杂度和个性化所需的数据量。概述如图1所示。

picture.image

作者以FLUX.1-dev模型[15]为主要目标评估所llm-Meta-LoRA_2503,该模型是一种先进的文本到图像扩散系统,以其高图像质量和强大的 Prompt 遵循能力而闻名。遵循先前研究,作者基于(i)保留基础模型原始能力以及(ii)生成人脸与目标身份的保真度,评估了使用Meta-LoRA训练的个性化模型。然而,作者的分析揭示了近期文献中关于数据集选择和评估协议的不一致性,特别是将同一图像用于个性化和评估的重复使用问题,这会虚高性能估计。为解决这些问题,作者引入了Meta-PHD,这是一个稳健的基准,包含来自多个来源的多样化身份,具有不同的姿势、光照和背景,确保对身份个性化方法的严格评估。作者的定性分析进一步补充了定量结果,捕捉了传统指标可能忽略的微妙但重要的细节。综合来看,作者的结果表明,所llm-Meta-LoRA_2503不仅能在多样化场景中保持身份一致性,还能保持强大的泛化能力和 Prompt 遵循能力,突显了元学习在增强基于LoRA的身份个性化方面的潜力。

总之,作者的贡献包括:

(1) 一种将通用组件和身份特定组件分离的新型MetaLoRA架构

(2) 一种元学习策略和有效的优化算法,实现一次性个性化

(3) 一个新的基准数据集(Meta-PHD)用于严格评估

(4) 一种鲁棒的相似度度量方法,以更好地衡量身份保留。

  1. 相关工作

身份个性化方法可分为两类:微调和前馈条件化方法。在一项开创性工作中,Ruiz等人[24]提出了DreamBooth,这是一种微调方法,通过结合特定类别的先验保留损失来平衡训练,以保持模型的泛化能力。Custom Diffusion[13]通过微调特定的交叉注意力参数来整合新概念。LoRA[10]提供了一种参数高效的替代方案,通过向模型权重引入低秩更新来实现对参数的直接微调,从而实现可控的适应性。鉴于其广泛的应用,作者关注原始LoRA公式,尽管Meta-LoRA可以自然地扩展到其他LoRA变体,例如[1, 8, 12, 16, 35]。

在第二组方法中,近期提出了几种前馈条件方法(参见[36]的近期综述)。例如,PortraitBooth[20]、PhotoMaker[17]、InstantBooth[27]、PhotoVerse[3]、FastComposer[32]、InstantID[30]和PuLID[9]均采用了类似IP-Adapter的设计,利用从输入ID图像中提取的身份相关嵌入来对文本条件生成进行多种增强:PortraitBooth和PhotoMaker微调扩散模型,其中PortraitBooth进一步引入身份损失和位置交叉注意力控制;InstantBooth在交叉注意力机制之后集成 Adapter 层,将条件特征注入U-Net层;InstantID采用包含面部关键点和身份嵌入的ControlNet模块;FastComposer利用图像编码器提取的客体嵌入来增强扩散模型中的通用文本条件;在PhotoVerse中,一个双分支条件机制在文本和图像域中运行,同时通过面部身份损失进一步强化训练;PuLID通过ID损失增强身份保留,并通过对齐损失改进文本图像对齐。相比之下,Meta-LoRA无需训练复杂的条件模型。此外,作者仅使用扩散损失;尽管引入额外损失是一个正交方向,并且可以轻松地集成到Meta-LoRA训练中,如果需要的话。

作为融合了两种个性化方法元素的混合工作,HyperDreamBooth [25] 采用两阶段流程:首先,一个元模块基于身份图像生成类似LoRA的权重;其次,这些生成的权重针对特定身份进行微调。虽然该方法在一定程度上与作者的工作相符,但它引入了若干限制,阻碍了其可扩展性和适用性;因为它需要训练一个复杂的图像到LoRAs映射网络,该网络由循环Transformer架构表示。相比之下,作者提出简单地元学习LoRA组件的子集,以嵌入特定领域的先验知识。

最后,作者应指出作者的工作受到了先前关于分类和强化学习任务的元学习研究的启发。作者同样采纳了MAML [5] 创始的快速适应元学习理念。然而,Meta-LoRA的公式化和技术细节在几乎所有主要方面都截然不同。

  1. 方法论

在本节中,作者详细介绍了MetaLoRA,包括模型结构和高效的训练算法。

3.1. 文本到图像LoRA训练基础

在基于扩散的文本到图像(T2I)模型中,低秩适配(LoRA)[10] 主要集成于U-Net Backbone 网络的注意力机制中,特别是在促进潜在图像表示与文本嵌入之间交互的交叉注意力层。通过将低秩分解矩阵纳入权重更新过程,LoRA能够实现高效的微调,同时最小化对原始模型参数的修改。在更High-Level的架构中,如Stable Diffusion XL [21] 和 FLUX.1 [15],LoRA也可应用于基于 Transformer (transformer)的组件,增强潜在特征提取并提升T2I一致性。通过将适配限制在这些关键层,LoRA优化了参数效率,同时保持了底层扩散模型的完整性。

作者将Meta-LoRA架构集成到FLUX.1- dev中,这是一个最先进的T2I生成模型。然而,Meta-LoRA的设计遵循通用方法,使其能够适应具有相似架构的其他模型。

3.2. 元LoRA架构

作者提出了一种三层自适应框架,通过将原始LoRA Down-block重新定义为身份共享的自适应组件,称为LoRA MetaDown(LoMD),并将传统LoRA Up-block分解为两个子组件,称为LoRA Mid(LoM)和LoRA Up(LoU)。具体而言,给定预训练的线性层

及其输入

,Meta-LoRA应用以下残差更新:

其中

分别对应 LoMD、LoM 和 LoU。索引

表示在

个训练身份中的身份标识。

每个LoMD组件作为一个身份无关的模块,在所有身份间共享,用于对目标领域进行个性化流形建模(图2,左)。一旦训练完成,LoMD在测试时的个性化过程中保持冻结,作为一个学习到的先验知识,促进快速适应(图2,右)。第二和第三个组件LoM和LoU是身份特定的,因此为每个身份单独参数化。LoM将LoMD的输出维度从

降低到一个低秩表示

,在保留相关特征的同时提高了效率,而LoU将这个降低的表示转换回与预训练层

输出相同的维度

,确保与基础模型的兼容性。

picture.image

3.3. 训练

作者的训练流程包含两个主要阶段:元训练和测试时身份个性化。在元训练阶段,作者学习一个用于通用特征的共享LoRA元下模块(LoMD),同时采用针对字符特定细节的不同LoRA中(LoM)和LoRA上(LoU)层。在测试时个性化阶段,作者根据给定的身份图像对LoM和LoU层进行微调。以下小节将详细解释每个阶段。

3.3.1. 第一阶段:元训练

元训练阶段的关键挑战在于LoMD中学习一种鲁棒的元表示,同时防止在身份特定的LoM和LoU层中出现欠拟合或过拟合。一种简单的训练方法可以是同时优化所有LoRA组件,针对所有角色。然而,无法构建足够大的批次来覆盖所有身份。试图通过将随机梯度下降应用于每个批次中可用的身份的LoM和LoU组件(以及共享的LoMD参数)来天真地解决这个问题,也会导致训练效率低下,因为身份特定的参数更新频率远低于共享参数,导致LoMD更新梯度质量差。

为了在小批量大小下实现高效的训练,作者将数据集划分为多个桶,每个桶包含一部分训练身份。为了最小化I/O开销,作者使用每个桶的数据进行

次迭代来更新模型。作者注意到,桶可以包含比VRAM允许的最大批量大小还要大的数据。

重要的是,在新桶开始时,作者首先应用自适应预热程序:在新桶的前Jwarm-up次迭代中,仅更新与桶内容对应的LoM和LoU层,使其与LoMd组件的当前状态同步。

在实际应用中,作者将

设置为每个桶中的示例被用于10次迭代。作者通过经验设置

,以确保LoMD仅在字符特定层充分适应后才进行更新。在剩余的迭代中,LoMD使用更信息丰富的梯度进行细化,确保所学习的元表征持续改进,而不受个体身份的偏差影响。对于所有模型更新,作者仅使用潜在空间扩散损失

。这种结构化方法防止因身份特定层欠训练导致的泛化能力差,同时减轻了过拟合的风险。在整个元训练阶段,LoMD模块积累了所有个体特定个性化模型所表达的通用领域知识。在此阶段结束时,所有训练的LoM和LoU组件被丢弃,仅保留LoMD。

组件被保留。

3.3.2. 阶段-2:测试时身份个性化

在第二阶段,作者仅使用一个新颖的目标身份图像来训练LoM和LoU层,同时保持LoMD权重冻结。

维度(即LoMD输出维度)保持不变,而

(即LoM输出维度)设置为1以减轻由于单图像输入导致的过拟合。

尽管作者的重点是单次个性化,MetaLoRA自然地扩展到具有多个参考图像的设置中。在这种情况下,

维度可以增加以增强模型容量,有可能提高身份保真度——这是未来值得探索的有前景的方向。最后,为简化起见,最终模型可以通过将LoMD和LoM矩阵相乘转换回默认的LoRA结构,产生一个秩-

(在作者的实验中为秩-1)的LoRA模型。本文中所有结果都是使用这种转换获得的。

为进一步防止在单张图像上过拟合,作者应用数据增强。首先,作者在图像中检测人脸,并确定人脸边界框的较长边长

。然后,作者使用常见的宽高比(16:9、4:3、1:1、3:4和9:16)对图像进行多次裁剪。对于每种宽高比,作者将人脸居中,并将裁剪后图像的较短边设置为以下值之一:

。如果原始图像不支持特定的裁剪尺寸,作者将选择最接近的尺寸,如果该尺寸的图像未被提取。此外,作者对每张图像应用随机水平翻转。总共,作者从单张输入图像生成最多25张增强图像。

  1. 实验

在本节中,作者将定量和定性方面对比评估llm-Meta-LoRA_2503与当前最先进文本到图像个性化方法的性能。作者首先介绍评估数据集、实验设置和指标,然后呈现对比结果和讨论。

4.1. 基准数据集

为了严格评估个性化性能,作者精心构建了一个新的测试数据集,称之为人类元LoRA个性化数据集(Meta-PHD)。该数据集包含两个互补的部分——分别来自FFHQ [11] 和 Unsplash-50 [7]——并包括图像和 Prompt 集合,旨在挑战模型保持身份和遵循多样化文本 Prompt 的能力。作者将公开提供Meta-PHD数据集,以促进公平的比较。

Meta-PHD-FFHQ图像。Meta-PHD-FFHQ组件包含从FFHQ测试集[11]中选取的60张高质量人脸图像(30张男性图像和30张女性图像)。这些图像涵盖了广泛的年龄和肤色范围,以确保其广泛适用性。作者对每张图像都应用了严格的筛选标准:图像中仅包含一个个体,面部无遮挡(即不戴太阳镜、帽子或手),眼睛睁开, Head 朝向在30度 frontal 范围内。

Meta-PHD-Unsplash图片。该组件灵感来源于Unsplash-50数据集[7],并基于https://unsplash.com/的许可协议获取。它包含从16个身份(每个身份4-10张图片)收集的98张图片。在每个身份中,主体穿着一致的服装并处于相同的背景,但姿势各不相同。这种设计确保数据集涵盖了多种视角,从而防止模型仅通过复制单个参考姿势来成功。

Prompt 词。对于FFHQ组件,作者为每个性别准备了20个 Prompt 词(存在部分重叠),以测试模型生成风格转换和重新情境化的能力。这些 Prompt 词受先前工作[9, 25, 27, 30, 33]的启发,评估 Prompt 词的遵循性和身份保留。对于Unsplash组件,作者为每个身份设计了10个 Prompt 词,重点关注姿势和背景的变化,同时强制要求主体呈现正面、无遮挡的视角。一个示例 Prompt 词是:"一个男人/女人站在阳光明媚的城市广场上,直接面向镜头,面部细节完整且进行直接的眼神交流"。完整的 Prompt 词列表在补充材料中提供。

4.2. 实验设置

训练数据集。作者使用了一个包含具有不同身份的男性和女性图像的专有数据集,这些图像与测试基准中的图像不同,并训练了两个独立的模型。每个人由20张高分辨率图像(

)表示。该数据集包括1,050名女性和400名男性受试者。该数据集在年龄、肤色、图像环境和配饰方面具有多样性。

实现细节。作者对Stage-1 MetaLoRA模型进行了50,000次迭代训练,使用单个A6000 GPU。对于Stage-2训练,作者使用了375次迭代。这些数值是经验确定的。更多实现细节可参考补充材料。代码、模型权重和评估数据集将公开共享。

Baseline 模型。作者与三种最先进的主题驱动图像生成模型进行了比较:InstantID [30]、PhotoMaker [17] 和 PuLID [9]。为了公平性,作者在可能的情况下对评估条件进行了对齐。此外,作者还提供了与标准秩1 LoRA Baseline 的比较,包括使用和未使用增强训练数据的两种情况,训练迭代次数与 Meta-LoRA 相同(375),以及更长的(675)。关于 Baseline 的更详细解释,包括扩散主干等各个细节背后的理由,在补充材料中给出。

4.3. 评估指标和R-FaceSim

根据近期研究[9, 24, 25, 27, 30, 33],作者采用四个关键指标评估性能:CLIP-T、CLIP-I、DINO以及新提出的鲁棒人脸相似度(R-FaceSim)。前三个指标的具体细节在补充材料中给出。常用的FaceSim指标旨在通过参考图像与生成图像之间的余弦相似度,评估生成图像保持主体身份信息的能力。人脸嵌入是通过人脸识别模型的 Backbone 网络获取的。然而,作者观察到该指标存在两大主要局限性。首先,人脸识别方法主要学习区分个体,因此其嵌入往往缺乏一些细粒度的身份细节,这一点在[4, 14, 25]等不同场景中均有体现。其次,通常在个性化与人脸相似度评估中采用相同的参考图像。但在前馈式个性化模型(如InstantID[30]和PuLID[9])中,作者观察到生成图像倾向于与参考图像具有相同的姿态和/或视线。这种现象表明这些模型存在不理想的局限性。同时,这也倾向于人为地抬高人脸相似度分数,因为人脸识别嵌入对相同的姿态或视线较为敏感。

针对前者问题,作者提供了对定性结果的详细讨论。针对后者问题,作者提出了一种新型面部相似度度量方法,称为鲁棒面部相似度(R-FaceSim)。R-FaceSim的计算方法是通过排除用于微调或输出条件化的参考图像;作者比较每个生成的图像与其他同一个人的真实图像(不同姿势),并计算余弦相似度的平均值。这样可以得到一个不会被精确参考图像所夸大的面部相似度分数。作者鼓励未来研究采用这种方法来改进因姿势复制而被夸大的分数,正如文献[7]中所承认的那样。

4.4. 定量结果

由于CLIP-I和DINO的特性,生成图像与基础模型高度相似的模型在这些指标上往往能获得更高的分数。然而,基础模型强大的泛化能力在用于身份个性化微调时,可能导致CLIP-T分数降低。同时,当参考身份被过拟合时,R-FaceSim会上升,但过度训练会损害泛化能力。现有的身份个性化模型难以平衡这些相互竞争的目标。例如,InstantID [30]和PhotoMaker [17]在人脸相似度或文本/图像对齐方面存在偏差。PhotoMaker以牺牲身份保留为代价,获得了更高的CLIP-T、CLIP-I和DINO分数,而InstantID则优先考虑人脸相似度,以牺牲泛化能力为代价。另一方面,PuLID [9]和作者所提出的Meta-LoRA在身份保留和泛化能力之间取得了更好的平衡。

与InstantID相比,llm-Meta-LoRA_2503在所有评估指标上表现更优,实现了 Prompt 遵循与身份保留之间的更均衡权衡。与PhotoMaker相比,Meta-LoRA在CLIP-I、CLIP-T和DINO指标上取得了相当的结果,同时展现出更优的面部相似度。此外,与使用FLUX.1-dev [15]基础的PuLID相比,Meta-LoRA在保持更好的面部相似度(即更高的R-FaceSim分数)的同时,表现出更强的 Prompt 遵循能力,以及在注入特定身份细节而不扭曲整体场景方面的更强能力(即更高的CLIP-T、CLIP-I和DINO分数)。鉴于这两个模型共享相同基础模块的实现,作者认为使用FLUX.1-dev [15]变体将Meta-LoRA与PuLID进行比较最为合理。然而,对于其他PuLID变体,类似的观察结果同样成立。

另一个关键区别在于预训练数据量和所采用的额外训练损失。现有模型依赖于显著更大的数据集(即,作者的数据集占InstantID的0.035%,占PuLID的1%,占PhotoMaker的18.75%)。此外,PuLID在训练过程中引入了以面部为中心的ID损失,而InstantID将面部特征集成到其网络中。尽管如此,Meta-LoRA在不使用此类显式面部损失或特征的情况下,实现了具有竞争力的或更优的结果,而是选择了一种更简单且更高效的训练策略。

作者还评估了使用直接输入和增强输入训练的默认Rank-1 LoRA模型。在375次迭代时,这些模型实现了较高的CLIP和DINO分数,但表现出较低的面部相似度,表明模型欠拟合。相比之下,MetaLoRA收敛速度更快,在375次迭代时达到了均衡状态。将Rank-1 LoRA训练扩展到625次迭代,如果输入被增强,模型将稳定。然而,Meta-LoRA在所有评估指标上仍然优于Rank-1 LoRA(625次迭代,加上数据增强),展示了其效率和有效性。更详细的比较在补充材料中给出。

4.5. 定性结果

为评估MetaLoRA的视觉保真度和 Prompt 遵循度,作者将其与几种 Baseline 方法[9, 10, 17, 30]进行定性比较。为增强作者对视觉结果的定性评估严谨性,作者专注于展示女性样本。这一决定基于Stage-1训练中包含了更大规模的女性受试者数据集。关于男性受试者的更详尽的比较分析,涵盖了更广泛的身份、文本 Prompt 和基础模型输出,可在补充材料中找到。

相比之下,LoRA在遵循文本 Prompt 方面表现出色,但在保持身份一致性方面存在困难,导致面部特征出现不一致。而InstantID则展现出对参考图像姿态和构图的强复制能力。虽然这使生成图像在特定子集的 Prompt 下更具物理一致性,但它显著削弱了模型遵循指定不同姿态、视角或需要改变面部几何的艺术风格 Prompt 的能力。这种行为解释了在朴素评估指标下身份相似度分数的虚高,与在优先考虑 Prompt 一致性的指标下表现较弱形成对比。

PhotoMaker在捕捉主体整体外观方面表现出合理的能力。然而,它在再现细粒度面部细节方面经常遇到困难,尤其是在 Prompt 词要求在上下文或风格上进行重大改变时。与此同时,PuLID在面部相似度方面与Meta-LoRA相当,但倾向于“修正”或平滑掉传统面部相似度指标可能无法完全捕捉的独特身份特征[4]。相比之下,Meta-LoRA继承并传播这些细粒度细节,确保了对参考身份更忠实的呈现。此外,Meta-LoRA表现出更优越的 Prompt 词遵循能力,生成的图像具有更丰富的上下文元素、更详细的后景,以及整体上更自然的感知。

PuLID在不同种子之间表现出相对较低的变化程度,这表明其在探索与 Prompt 和身份相符的可能输出范围内的能力可能存在潜在限制。在某些情况下,其 Prompt 跟随能力在根据 Prompt 修改面部特征方面也存在不足。

相比之下,Meta-LoRA在种子依赖性变化和身份一致性之间实现了理想的平衡。它在生成多样化输出的同时,保持了高度忠实于输入身份,确保了在不同场景下的适应性和准确性。

总体而言,定性结果有力地证实了作者的定量研究结果。Meta-LoRA在各种 Prompt 下始终生成身份准确的图像,既保留了主体的独特面部特征,又生成的场景与文本描述高度一致。此外,它在不同种子之间保持了有意义的多样性,兼具创造性与忠实性——这一改进在需要身份保留和 Prompt 遵循的应用中尤为宝贵。

  1. 结论

本文提出Meta-Low-Rank Adaptation(MetaLoRA),一种通用的三层LoRA架构,旨在增强文本到图像生成模型中的身份个性化。MetaLoRA采用两阶段训练策略:第一阶段学习适用于多个身份的通用LoRA Meta-Down层,第二阶段仅使用单张参考图像对LoRA Mid层和LoRA Up层进行特定身份的微调。通过整合领域特定先验知识并优化跨不同身份的特征学习,MetaLoRA显著提升了身份保留、鲁棒性和适应性,同时保持了计算效率。

为评估llm-Meta-LoRA_2503,作者引入了Meta-PHD,一个专门用于测试的新颖身份个性化数据集,并使用该数据集评估Meta-LoRA的性能。作者的结果表明,Meta-LoRA达到了最先进(SOTA)的性能,或与现有的SOTA方法性能相当。此外,定性评估突出了Meta-LoRA在生成身份个性化图像的同时,能够有效保持 Prompt 的准确性。

未来的研究方向包括将最新的LoRA变体[1, 8, 12, 16, 35]整合到Meta-LoRA框架中,以及探索所llm-Meta-LoRA_2503在其他模型定制任务中的适用性。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论