神经网络算法 - 一文搞懂MAE(掩码自编码器)

MySQLNoSQLService Mesh

本文将从 MAE的本质 、MAE的原理**** 、MAE**的应用********** 三个方面,带 您一文搞懂 掩码自编码器 Masked Autoencoders|MAE。

picture.image

Masked Autoencoders(MAE)

一、MAE 的本质

MAE的定义: MAE(Masked Autoencoders),即掩码自编码器,是一种在计算机视觉领域广泛应用的自监督学习方法。

MAE通过在输入的图像或文本中随机遮盖部分数据(如图像中的patches或文本中的单词),然后让模型去预测被遮盖的部分,并将预测结果与真实的部分进行比较,计算误差作为损失。 这种方法使模型能够直接重构被遮盖的数据,从而实现自监督学习。

picture.image

Masked Autoencoders(MAE)

自监督学习: Self-Supervised Learning(自监督学习)是一种无监督表示学习方法,其核心在于通过设计辅助任务(也称为“预训练任务”或“前置任务”)来挖掘数据自身的表征特征作为监督信号,从而提升模型的特征提取能力。

picture.image

Self-Supervised Learning vs Supervised Learning

这种方法不需要人工标注的数据集,而是利用数据本身的信息进行训练。

picture.image

Self-Supervised Learning Workflow

Mask Language Model(MLM)和Mask Image Model(MIM)是两种在不同领域(自然语言处理和计算机视觉)中应用的自监督学习方法。

  • Masked Language Model(MLM) 是一种预训练语言模型的方法,通过在输入文本中随机掩盖一些单词或标记,并要求模型预测这些掩盖的单词或标记。MLM的主要目的是训练模型来学习上下文信息,以便在预测掩盖的单词或标记时提高准确性。
  • Mask Image Model(MIM) 是一种新型的视觉预训练方法,通过借鉴预训练语言模型(如BERT)采用的自掩码预训练机制,对需要进行预训练的图像输入进行随机的部分遮盖,要求网络对原始的图像进行重建,从而实现对于图像数据的预训练。

picture.image

MLM和MIM

MAE的本质: MAE的本质在于其自监督学习的方式。与传统的监督学习不同,自监督学习不需要大量的标注数据,而是通过设计特定的预训练任务来让模型从数据中自动学习有用的表示。

MAE正是利用了这一特性,通过掩码重建任务来迫使模型学习图像的高层次特征。

picture.image

BERT和MAE

MAE的核心思想: MAE通过遮盖输入数据中的随 机块,并利用不对称的encoder-decoder结构在像素或特征空间中重建这些丢失的块,从而实现高效的自监督学习。

  • 遮盖与重建: MAE的核心思想是 将输入数据中的随机块进行屏蔽,然后在像素空间或特征空间中重建丢失的块。 这种方法不仅限于图像,也可以应用于文本等其他类型的数据。
  • 不对称结构: MAE通常采用不对称的encoder-decoder结构, 其中encoder只在可见(未遮盖)部分操作,而decoder则用于从隐空间和遮盖部分中恢复出原始数据。 这种设计使得MAE在预训练阶段能够高效地利用计算资源。

picture.image

MAE的核心思想

二、MAE的原理

MAE的架构 MAE基于一种非对称的编码器-解码器结构,其设计旨在通过自监督学习来提高模型的表征能力。

MAE对输入图像进行随机补丁(patches)的掩码操作,并仅使用可见的补丁(未被掩码的部分)来训练编码器。随后,使用一个轻量级的解码器从编码器的输出和掩码标记中重建原始图像。 这种方法类似于NLP中的BERT模型,但应用于图像领域。

picture.image

MAE 的架构

MAE的核心组件 编码器(Encoder)、解码器(Decoder)

1. 编码器(Encoder)

  • 作用: 编码器负责将可见的补丁映射到潜在表示中。
  • 非对称设计: 编码器仅对可见的补丁进行操作,而忽略被掩码的补丁。
  • 轻量级: 由于只需要处理部分补丁,编码器的计算量和内存消耗相对较低。
  • 结构: 编码器通常采用Vision Transformer(ViT)的结构,包括线性投影、位置嵌入和一系列Transformer块。这些块通过自注意力机制处理补丁的嵌入表示。

2. 解码器(Decoder)

  • 作用 :解码器负责从潜在表示和掩码标记中重建原始图像。
  • 轻量级 : 解码器的设计相对简单,因为其主要任务是根据编码器的输出和掩码标记来预测被掩码的补丁。
  • 结构 : 解码器同样使用一系列Transformer块,但其输入包括编码后的可见补丁和掩码标记。 解码器的最后一层是一个线性投影层,用于生成每个掩码补丁的像素值向量。

picture.image

MAE的核心组件

MAE的工作流程: 编码器处理可见图像补丁 的潜在表示,解码器结合此表示和掩码标记, 用Transformer重建掩码补丁 ,仅对掩码补丁的重建结果进行损失计算。

  1. 输入处理:将输入图像分割成规则且不重叠的补丁,并对其中一部分补丁进行随机掩码操作。
  2. 编码:将可见的补丁送入编码器,编码器将其映射到潜在表示中。
  3. 解码:将编码器的输出和掩码标记作为解码器的输入,解码器通过一系列Transformer块处理这些输入,并生成重建图像的补丁。
  4. 损失计算:计算重建图像与原始图像在像素空间上的误差(通常使用均方误差MSE),仅对掩码补丁的预测结果进行损失计算。

picture.image

MAE的工作流程

三、MAE的应用

图像重构任务: MAE在图像重建任务中通过自监督学习强大的特征表示,成功应用于超分辨率、去噪、风格迁移等多个领域,有效提升了重建图像的质量。

  • 超分辨率(Super-Resolution, SR):
    超分辨率是指从一幅或多幅低分辨率图像中重建出高分辨率图像的过程。 在这个任务中,目标是恢复出原始图像中因采集设备分辨率限制而丢失的细节信息,使得重建后的图像在视觉效果上接近或达到真实高分辨率图像的质量。 超分辨率技术广泛应用于医学影像、安全监控、娱乐产业等领域。

picture.image

Super-Resolution

  1. 去噪(Denoising):

去噪是指从被噪声污染的图像中恢复出原始清晰图像的过程。 噪声可能来源于图像采集过程中的传感器噪声、传输过程中的信道噪声等。去噪算法的目标是尽可能去除图像中的噪声成分,同时保留图像的重要特征和细节,使得重建后的图像更加清晰、自然。 去噪技术在医学影像处理、卫星遥感、日常摄影等领域都有广泛的应用。

picture.image

Denoising

  1. 风格迁移(Style Transfer):

风格迁移是指将一幅图像的风格应用到另一幅图像的内容上,从而生成具有新风格的图像。 这个任务结合了计算机视觉和计算机图形学的技术,旨在将艺术家或某种艺术流派的风格自动地转移到任意图像上。风格迁移算法通常通过分析风格图像和内容图像的特征表示,然后将风格特征融合到内容图像中,最终生成既保留了原图像内容又融入了新风格的图像。 风格迁移技术在艺术创作、广告设计、娱乐游戏等领域具有广泛的应用前景。

picture.image

Style Transfer

相关论文

  • 《Masked Autoencoders Are Scalable Vision Learners 》

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论