AI技术进展和总结｜社区征文 - 文章 - 开发者社区

picture.image

前言

随着机器学习和深度学习的发展，AI技术也在不断地推陈出新，也融入到了在我的工作和生活中，今年以来我的主要研究方向便是人工智能的方向。

AI技术

近年来，基于AI的预训练技术在文档理解任务方面取得了显着进展，在文档人工智能社区中掀起了波澜。预训练的文档AI模型可以解析扫描表格、工作文档和学术论文等各种文档的布局并提取出最关键信息，这对于工作应用和学术研究非常重要。基于AI的自监督预训练技术由于其重建预训练目标的成功应用，在深度学习方面取得了快速进展。

最近提出的基于AI的LayoutLMv3模型非常成功，LayoutLMv3 是文档 AI 中第一个多模态模型，不依赖于预训练的卷积神经网络来提取视觉特征，这样节省了参数并消除了区域注释。LayoutLMv3模型通过统一的离散标记重建目标减轻了文本和图像多模态表示学习之间的差异。我们进一步提出了单词补丁对齐目标，以促进跨模式对齐学习。LayoutLMv3 是一个通用模型，适用于以文本为中心和以图像为中心的文档AI任务。在AI领域里面首次展示了多模态 Transformer 在视觉任务的通用性，经过大量的实验结果表明，LayoutLMv3 在文档AI中以文本为中心的任务和以图像为中心的任务中实现了最先进的性能，达到了非常好的效果。

基于AI的多模态自监督预训练技术

由于在文档布局和图像表示学习方面的成功应用，在文档智能领域取得了快速进展。LayoutLM 模型及后续通过编码文本的空间坐标来进行联合布局表示学习。然后，各种工作通过将卷积神经网络与自注意力网络相结合来联合图像表示学习。这些工作要么提取卷积神经网络网格特征，要么依赖对象检测器提取区域特征，这会造成大量计算瓶颈或需要区域监督。在自然图像视觉和语言预训练（VLP）领域，研究工作已经从区域特征到网格特征的转变，以解除预定义对象类的限制和区域监管。受视觉 Transformer (ViT) 的启发，最近也有人在没有卷积神经网络的 VLP 方面做出了努力，以克服卷积神经网络的弱点。尽管如此，大多数还是依赖单独的自注意力网络来学习视觉特征；因此，它们的计算成本并没有减少。ViLT 是一个例外，它通过轻量级线性层学习视觉特征，并显着减少模型大小和运行时间，极大提高了工作效率。

总结

所以最新提出的 LayoutLMv3模型来预训练 AI 的多模态 Transformer，它重新设计了 LayoutLM 的模型架构和预训练目标。与现有的多模态模型不同，LayoutLMv3不依赖于预先训练的卷积神经网络或主干来提取视觉特征。使用统一的文本和图像屏蔽预训练目标：屏蔽语言建模、屏蔽图像建模和字补丁对齐，来学习多模态表示。在未来的研究中，我也从中学习到很多，我将研究扩大预训练模型的规模，以便模型可以利用更多的训练数据来进一步推动结果。此外，我还将探索zero-shot学习能力，以促进文档AI行业更多真实有用的业务场景。