DocEdit-v2:通过多模态 LLM 基础进行文档结构编辑 ! - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

文档结构编辑涉及根据用户请求操纵文档图像中的文本、视觉和布局组件。过去的工作表明，将用户请求多模态地定位在文档图像中，并识别出准确的结构组件及其相关属性仍然是对这项任务的关键挑战。

为了解决这些问题，作者引入了DocEdit-v2，这是一个利用大型多模态模型（LMMs）实现端到端文档编辑的新颖框架。

它包括三个新颖的组件：

（1）Doc2Command，同时定位感兴趣的编辑区域（RoI）并使用户编辑请求明确化为人机编辑命令。

（2）基于LLM的命令调整，将原本用于特定软件的编辑命令调整为人机通用LMMs的编辑指令。

（3）此外，DocEdit-v2通过像GPT-4V和Gemini这样的大型多模态模型处理这些输出，解析文档布局，在已定位的感兴趣区域（RoI）上执行编辑，并生成编辑后的文档图像。

在DocEdit数据集上的大量实验表明，DocEdit-v2在编辑命令生成（2-33%）、感兴趣区域边界框检测（12-31%）和整体文档编辑（1-12%）任务上明显优于强大的 Baseline 。

1 Introduction

数字文档广泛用于交流、信息传播和提高工作效率。语言引导文档编辑涉及根据用户与文档空间对齐、组件放置、区域分组、替换、调整大小、拆分、合并以及应用特殊效果的开放式请求修改文档的文本、视觉和结构组件。文档编辑本质上是一项生成性任务，因为它涉及从现有文档创建一个新的编辑输出。

Mathur等人（2023a）在论文中提出了端到端文档编辑任务中的三个关键挑战：

(1) 在文档图像中多模态地定位模糊的用户请求，(2) 确定需要编辑的精确组件及其相应的属性，(3) 在不扭曲原始文档的语义或空间连贯性的情况下生成准确的编辑。通过解析用户请求的视觉-语义线索，多模态定位可以弥合自然语言指令与文档内容的空间复杂性之间的鸿沟。像DocEdit数据集[22]中发现的复杂的编辑命令通常具有歧义性，并针对特定软件应用进行定制。

对这些编辑命令的歧义消除可以帮助通用的生成模型获得更精细的编辑指令。作者假设直接编辑解析的HTML/XML文档结构可以克服像素级图像生成的限制。

以前的工作如Mathur等人（2023年）为语言引导文档编辑执行了编辑命令生成，但仅限于特定软件的应用。生成方法如扩散模型在视觉领域具有前景，但在同时保留文档的结构信息以重建复杂的文本和视觉元素方面仍存在挑战[27, 14]。与自然图像不同，文档包含文本、图像、格式和布局的复杂性，因此需要对生成编辑方法采取更为精细的处理方法。

最近，如GPT-4V（OpenAI，2023）和Gemini等大型多模态模型（LMMs）在文档理解、目标定位、密集描述和代码合成方面展示了惊人的能力。以前的工作还探索了将视觉和语言 Query 组合成代码子程序的LLM程序合成[15, 16, 17]。作者的工作旨在通过利用LMMs的突发能力，端到端地编辑文档的HTML表示，推理编辑请求的语义上下文，在文档图像中视觉参考该区域，确定需要修改的空间元素，并生成最终文档。

主要结果 ：作者提出了DocEdit-v2（图1）- 一个基于LMM的端到端文档编辑框架。当接收到一个文档上的用户请求时，它利用新颖的Doc2Command模块将编辑位置映射到文档图像中，并生成编辑命令。Doc2Command是一个同时进行 Mask 语义分割和定位感兴趣区域（RoI）的Transformer模型，该模型由图像编码器-文本解码器- Mask Transformer 共同训练，以消除用户编辑请求的歧义并将其分解为模块化命令。Doc2Command从视觉上将编辑请求与文档图像集成，通过视觉编码器-文本解码器 Backbone 网络将其处理为统一视觉模式以生成命令文本。

它通过在图像编码器上引入 Mask 自注意力 Transformer 将边界框检测重新定义为分割任务。此外，作者提出了一种Command Reformulation技术，通过利用LLM的零样本上下文学习能力，将编辑命令定制为特定于LMM的编辑指令。最后，DocEdit-v2利用GPT-4V和Gemini等LMMs通过将编辑指令和定位的RoI相结合的多模态 Prompt 编辑文档的HTML结构。作者设计了两个新指标-CSS IoU和DOM Tree Edit Distance，用于评估最终编辑文档的呈现质量和与真实值的结构相似性。在DocEdit数据集上的实验表明，texttt（DocEdit-v2）在编辑命令生成（比强 Baseline 高2-33%）、RoI边界框检测（比强 Baseline 高12-31%）和总体文档编辑任务（比强 Baseline 高1-12%）方面显著优于 Baseline 。作者的主要贡献是：

picture.image

作者提出 命令重写 方法，通过使用大型语言模型（LLMs）将用户的语言意图翻译成特定视觉编辑 Prompt ，以解决歧义问题。

作者提出了Doc2Command ，这是一种新颖的基于 Transformer 图像编码器和解码器架构的模型，用于生成文档编辑的准确命令，并通过多任务框架中的 Mask 语义分割在语义上定位编辑区域。

作者提出了DocEdit-v2 ，这是一个基于LMM的文档编辑框架。它可以以对话的方式执行本地化编辑任务。DocEdit-v2通过命令重构将用户意图转换为适当的LMM Prompt ，并利用作者提出的Doc2Command模块进行多模态推理。

CSS 一致性 IoU 和 DOM 树编辑距离评估 LMM 生成的文档在展示质量和结构忠实度方面的表现，与 GT 情况相比。

2 Related Work

过去的语言指导图像编辑工作主要集中在自然图像数据集[20, 16]上，忽视了文档的独特特征，文档通常具有丰富的文本内容和多种结构元素，这些元素以各种布局排列。这些数据集往往缺乏局部编辑和间接编辑引用的表示，这些对于有效的文档编辑至关重要。值得注意的是，基于GAN的和扩散方法在自然图像处理任务上取得了进展，因为它们能够实现端到端的像素级图像合成。然而，它们在具有丰富文本内容和复杂布局的数字文档上的适用性仍然有限。这些技术无法抓住文档内嵌入文本组件的空间和语义复杂性。因此，在语言指导文档编辑的前期工作中，主要转向通过文本和视觉线索来多模态地定位可操作命令和视觉定位[13]。尽管做出了这些努力，但针对文档图像编辑的有效生成框架仍然是一个重要的挑战。

3 DocEdit-v2 Methodology

DocEdit-v2 (图1) 的有效编辑操作包含以下几个步骤：

（a）通过Doc2Command实现多模态语义化和编辑命令生成；

（b） Prompt 编辑命令进行转换，使其成为LMM（Longformer Model）特定的 Prompt 指令；

（c） Prompt LMMs（如GPT-4V和Gemini）以实现对文档HTML表示的细微且本地化的编辑。

Doc2Command

编辑文档基于用户请求需要将开放的词汇用户请求转换为精确的操作，并将感兴趣的区域定位在文档图像中。编辑命令生成涉及将歧义的自然语言用户请求语义映射到特定的编辑操作、组件和相关属性，以确保预期的修改准确理解和执行。多模态定位对于识别用户提到的特定的文本或视觉文档元素至关重要。Doc2Command是一个多任务、多模态Transformer基础模型，旨在同时实现区域感兴趣分割和命令生成的这两个目标。

模型化Doc2Command ：Doc2Command使用了一个预训练的视觉 Transformer （ViT）图像编码器[13]，该编码器来自Pix2Struct[19]，该编码器已经预训练用于通过 Mask 文档图像建模目标对屏幕截图进行解析。编码器生成的 Patch 嵌入作为预训练的Pix2Struct解码器的输入，以及 Mask Transformer 的输入。

*编辑命令生成：*作者策略性地将输入文本请求转换为文档图像顶部的一个文本框元素。这种方法允许将语言和视觉输入更灵活地集成，可以由图像编码器共同处理。而不是将输入图像缩放到预定义的分辨率，作者调整缩放因子，以最大限度地减少可以适应图像编码器序列长度的固定大小 Patch 的数量。这使得模型在面对文档图像的极端宽高比时更具鲁棒性。每个 Patch 都被 flattened，以获得像素向量，然后输入到图像编码器中生成 Patch 编码。编码器生成的 Patch 嵌入作为文本解码器的输入，自动回归生成表示指定为：ACTION(<组件>, <初始状态>, <最终状态>)的命令文本序列的 Token 序列，其中包含动作，其相关的组件，属性，初始和最终状态。更多详细信息见A.6节。

多模态定位 ：作者从语义分割任务的角度来检测边界框。给定感兴趣区域和渲染后的用户请求，作者创建了三个类别（1）感兴趣区域，(2)渲染后的用户请求文本，(3)剩余文档）的真实分割图。

作者使用DETR风格的可学习类嵌入（在作者的模型中，K=3）进行 Mask 注意力建模。一组K个随机初始化的可学习类嵌入（在作者的模型中，K=3）分配给单个语义类别。它用于生成类别 Mask 。Mask Transformer 将类别嵌入与卷积编码联合处理，并通过对L2归一化的卷积嵌入与解码器输出的类别嵌入计算标量积来生成K个 Mask 。将类别 Mask 集 Reshape 为2D Mask ，并双线性上采样到图像大小，然后进行softmax和 LayerNorm 以获得像素级类别得分，形成最终 Mask 分割图，它们对彼此是软竞争的。在推理时，将分割区域转换为边界框，考虑 Mask 内95%的质心点。然后使用最大连续物体的轮廓确定边界框的坐标，用(x,y,h,w)表示，其中(x,y)是边界框的左上角坐标，h和w分别是高度和宽度。详细信息见第A.7节。

训练文档到命令： 文本解码器经过微调以生成命令文本，而 Mask Transformer 经过微调用于分割。多任务设置采用由给出的组合加权损失。分割损失本身是Focal Loss [10] 和 Dice 损失 [21] 的和。

Command Reformulation Prompting

Doc2Command 是在 DocEdit 数据集[11]上进行命令生成任务训练的，该数据集旨在生成特定软件的命令。因此，生成的编辑命令在通用 LMM（如图6-13 中的示例所示）中使用时是次优的。此外，由于用户请求中的歧义，生成的命令可能未能完全指定产生最终编辑所需的动作、组件和相关属性。因此，有必要对 Doc2Command 模块生成的编辑命令进行重新表述，使其完美地与通用多模态生成模型（如 GPT-4V 和 Gemini）期望的 Prompt 指令对齐。作者通过引入命令改革利用 LLM 在语境中学习来解决这个问题。附录中的图16 显示了包含原始用户请求和与 LLM 配合使用的 Doc2Command 生成的编辑命令的 Prompt 模板。LLM 的输出是一个针对基于 LMM 的文档编辑的定制编辑指令。图3 表示两个定性示例，展示了命令改革及其对编辑文档的影响。

picture.image

Generative Document Editing

HTML+CSS作为文档表示：结构化文本表示，如超文本 Token 语言（HTML）和层叠样式表（CSS），在减轻文档编辑生成方法所面临挑战方面具有显著优势。首先，HTML提供了一种层次结构，该结构天生捕获了文档元素之间的组织和关系，有助于保留结构信息。这种层次表示允许对布局和内容的精确操纵和控制，这对于在编辑过程中保持文档一致性至关重要。其次，CSS将内容与呈现解耦，提供了一种系统的方法来捕获字体、颜色和布局等样式属性。内容与样式之间的分离允许在渲染文档时保持其底层结构，同时提供更灵活的文档呈现方式。因此，作者将文档编辑概念化为文本生成任务，通过将文档表示为HTML+CSS渲染。

生成HTML+CSS数据：作者使用生成式大型多模态模型（LMMs），具体为GPT-4V和Gemini，通过约束驱动的 Prompt 工程将输入和真实文档图像转换为紧密仿制的HTML和CSS渲染。作者的实验设置对生成的HTML文档施加了严格的限制，以确保类名的标准化，充分利用flexbox进行布局，优先使用内嵌CSS，并用占位符替换视觉媒体。保持生成的HTML+CSS的一致性和连贯性便于公平评估。

LMM Prompting : 作者利用Doc2Command和Command Reformulation步骤中提取的基于文档图像的 grounded RoI bounding boxes的 Token [22]的多模态 Prompt GPT-4V和Gemini。这样，多模态 Prompt 使LMMs在紧密遵循提供的命令的同时，特别关注文档图像中边界框指定的视觉线索。这确保生成的修改准确地反映了预期的更改。

4 Document Editing Evaluation

作者对系统输出进行了如下评估：

自动化指标： 除了文档生成的指标（精确匹配、ROUGE-L、词重叠F1、动作和组件准确率%）以及RoI边界框预测（Top-1准确率%）外，作者针对HTML文档编辑适应了两个新的指标：

DOM 树编辑距离 - 文档目标模型（DOM）树表示HTML文档的层次结构。比较两个HTML文档的DOM树可以得到它们的结构差异信息。作者使用Zhang-Shasha算法[23]来计算生成和真实DOM树之间的编辑距离。

CSS IoU ：Cascading Style Sheets（CSS）处理HTML文档的呈现，并规定它们应该如何渲染。在将文档图像重新创建为HTML页面时，以属性值对形式表示的CSS控制着渲染后的HTML文档的格式、样式和布局。从内联CSS和内部CSS选择器中获取属性值对集合，并在这组集合上计算交集与并集（IoU），以评估编辑和实际文档之间的样式相似性。作者还使用ROUGE-L和Word Overlap F1评估整个文档的并行HTML文档，这些方法应用于整个文档。

人为评估：作者有三名评估者在三个建议的指标上对编辑后的文档HTML进行评估：

（1）样式复制：评估原始文档的样式是否得到保留；

（2）内容复制：评估原始文档HTML中非兴趣区域的文本内容是否得到保留；

（3）编辑正确性：判断用户的编辑意图是否得到忠实实现。这些指标分别得到二进制评分，这些评分在评估者之间求平均，然后相加以计算每篇文档的综合评分。

图4中的热力图比较了作者的提出的两个指标，即树编辑距离和CSS IoU，与人类和自动化评估指标进行了对比。在人类评估中，CSS IoU与样式复制之间显示出强烈的相关性（0.73），突显了其对视觉呈现的敏感性。然而，树编辑距离比较的是HTML文档结构，这些结构与任何人类评估参数都不直接相关，因此没有显著的相关性结果。这些结果表明，基于指标的评估之外的人类评估的重要性。与自动化指标（如Word Overlap F1和ROUGE-L）相比，树编辑距离适中地负相关（-0.49，-0.50），正如预期那样，因为更高的树编辑距离反映了不相似的文档。树编辑距离与这两个指标适中地正相关（0.45），这意味着展示风格部分影响了基于文本的覆盖。

picture.image

5 Experimental Settings

Data

作者使用了Mathur等人（2023a）提出的DocEdit-PDF数据集。该数据集包含17,808对文档图像，对应的用户编辑请求和地面真编辑命令。作者的实验在数据集官方发布时提供的默认数据分割上进行，其中数据按8：2：1的比例分为训练、测试和验证集。所有报告的结果均基于测试集。数据集的许可证可以在这里找到。

Implementation Details

Doc2Command

作者的实验使用了Adafactor优化算法，学习率为，权重衰减设置为。训练过程跨越了30个周期，批量大小为1。输入数据被组织成大小为16的块，限制了最大块数（即1024）。学习率使用余弦调度器进行计划，其中每个周期内的迭代次数的10%相当于预热期。对于损失计算，作者引入了损失加权因子和。分割使用参数和的SigmoidFocal Loss。此外，解码器包括0.1的dropout率。

命令重构与文档编辑 ：作者使用gpt-4（OpenAI，2023）和gemini-pro（Team等，2023）进行命令重构，使用gpt-4-vision-preview/gemini-pro-vision进行文档编辑。作者将温度参数设置为0，以确保确定性和可重复的实验，并将所有其他参数的默认值设置为默认值。视觉定位和命令定位是通过在测试集上推理Doc2Command获得的。输出中的最大 Token 计数设置为4000。

利用HTML作为表达文档编辑的媒介的一个局限性是，真正的后编辑文档仅以文档图像的形式存在，其中边界框用于指示编辑区域。因此，作者使用LMMs生成 GT 后编辑文档的HTML副本。为了确保一致性，作者在将图像转换为HTML时使用与文档编辑实验相同的 Prompt 细节。此外，作者在重新创建文档图像作为HTML文档时， Prompt 模型特别关注边界框中的样式和内容。作者对 GT 后编辑HTML文档进行人工评估，将其与 GT 图像进行比较，如在“指标”部分所述，样式复制得分和内容复制得分分别为75.23%（GPT-4V）和92.3%（Gemini），在所有评估者和任务上，Cohen's Kappa分数均大于等于0.84。有关指标（见附录A.3）、计算资源（见附录A.4）和人工评估（见附录A.5）的更多实施细节。

6 Baselines

命令生成 Baseline ： 作者研究了几种命令生成的 Baseline ，以建立性能基准。首先，作者使用仅处理用户文本描述的 Seq2Seq 文本模型，包括 GPT2 (Radford 等，2019 年)、BART (Lewis 等，2020 年) 和 T5 (Raffel 等，2020 年)。然后，作者探索了生成器-提取器范式，将 BERT (Devlin 等，2019 年) 和 DETR (Carion 等，2020 年) 与自动回归解码相结合进行命令生成。此外，作者研究了 Transformer 编码-解码架构，如 LayoutLMv3-GPT2 和 BERT2GPT2 (Huang 等，2022 年)，它们将 GPT2 解码器与 LayoutLMv3 和 BERT 编码器相结合。此外，作者研究了 Prefix Encoding (Mokady 等，2021 年)，使用 CLIP (Radford 等，2021 年) 和 DiT (Lewis 等，2006 年) 等预训练编码器的学习表示作为 GPT2 解码器网络的前缀。此外，作者考虑了 Multimodal Transformer (Hu 等，2020 年)，它将用户描述、视觉目标和文档文本的多种模态输入合并到生成命令的过程中。此外，作者探索了 DocEditor (Mathur 等，2023 年)，这是一个针对特定任务的基于 Transformer 的多模态模型，将文档图像分解为 OCR 内容和目标框，并利用多模态 Transformer 生成命令。最后，作者与 GPT3.5 (Brown 等，2020 年) 和 GPT4 (OpenAI，2023 年) 进行了比较，通过提供每个命令类型的三个示例上下文进行即席学习。

视觉定位 Baseline ： 作者研究了几种基于文档编辑的视觉定位 Baseline 。首先，ReSC-Large (Yang 等，2020 年) 提出了一种直接坐标回归的方法，用于在感兴趣区域（RoI）边界框预测任务中进行直接坐标回归。类似地，TransVG (Deng 等，2022 年) 提供了另一种在 RoI 边界框预测任务中进行直接坐标回归的替代方法。此外，作者研究了 DocEditor (Mathur 等，2023 年)，它采用一种全面的方法。DocEditor 首先通过光学字符识别（OCR）提取文本，并使用目标检测来捕获视觉特征。然后，将 Transformer 编码的特征输入到 Gated Relational Graph Convolutional Network (R-GCN) 中，以生成一个布局图感知的表示。然后，利用这个表示进行边界框回归，从而实现对文档元素的准确局部化。

文档编辑 Baseline ： 某些实验配置用于研究命令转换和多模态定位在利用 GPT-4V 和 Gemini 作为文档编辑工具方面的有效性。具体来说，视觉定位、命令定位和命令转换被选择性地排除在作者的实验之外。在此背景下，命令定位被替换为无结构的用户请求，而视觉定位被消除，因为将原始文档图像作为输入，从而不需要显式的视觉线索（生成的边界框）。此外，命令转换被消除，因为直接使用 Doc2Command 模型生成的命令。值得注意的是，命令定位的缺失使得命令转换无法应用（N/A），因为转换过程依赖于从地面上下文中生成的命令。

7 Results

表格1显示了DocEdit-v2在命令生成任务上与当代基准的性能。DocEdit-v2在识别文档组件方面实现了令人印象深刻的86.1%的准确率，比之前的最先进水平（SoTA）提高了约10.7%。作者观察到精确匹配准确率和ROUGE-L分数的持续增长，尽管在动作准确率（%）和单词重叠F1方面与SoTA相当。作者在组件准确性（%）方面相对于之前的特定任务SoTA有了显著的提高，提高了45个百分点。作者将这种显著的改进归因于Doc2Command模块，该模块可以有效地理解自然语言请求并将其转化为复杂的文档结构和布局。表格2显示了Doc2Command在边界框检测任务上取得了令人瞩目的改进，Top-1准确率为48.69%，比之前的SoTA提高了12.19%，这进一步证实了作者的系统在准确地将编辑请求映射到文档图像方面的有效性。

生成文档编辑：表3和4显示了使用GPT-4V和Gemini作为基础LMMs进行端到端文档编辑任务的结果。作者观察到，Doc2Command和Command Reformulation Prompt 是关键组件，因为删除其中一个会严重恶化自动化和人工评估的性能。当作者移除Command Reformulation Prompt 时（无论是带有还是不带有视觉定位），Edit Correction减少了约2-3%。视觉定位通过局部化编辑区域来帮助，这可以通过 Prompt GPT-4V时Edit Correction提高了约18-23%来证明。

picture.image

GPT-4V和Gemini在Tree Edit Distance和CSS IoU方面取得了显著的性能提升，这表明它们能够始终如一地重构文档的非RoI部分，证明了直接编辑HTML和CSS的有效性。在没有任何多模态地面 truth的实验设置中，性能最差，而使用命令重写的多模态地面 truth可以提高编辑正确率（EC）29.96%（GPT-4V）/28.94%（Gemini）和总体人类评估分数11.36%（GPT-4V）/13.16%（Gemini）。

图6-14展示了DocEdit-v2在处理各种编辑请求时的文档编辑质量，如空间对齐、组件放置、文本改写以及应用特殊效果，这些效果需要对文档的不同元素（如文本、表格、图表和列表）进行操作和渲染。

8 Conclusion

作者提出了DocEdit-v2框架，用于端到端文档编辑。DocEdit-v2借鉴了Doc2Command，这是一个多任务多模态模型，它可以将用户请求在文档图像中视觉定位，并生成编辑命令，这些命令进一步通过命令改进 Prompt 进行细化。

DocEdit-v2使用LMMs多模态 Prompt ，结合请求定位和编辑指令进行生成编辑，对文档的HTML+CSS结构进行编辑，展示了编辑准确率、命令生成和ROI检测等方面的显著性能提升。

未来的工作将致力于增强框架对多样化文档类型的适应性，包括多页文档。

参考文献

[0]. DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding.