多模态统一模型新突破 | Ovis-U1实现理解+生成+编辑三合一,3B参数碾压GPT-4o视觉能力

大模型向量数据库云通信

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

如何使多模态理解模型具备图像生成能力

传统多模态大语言模型(MLLM)主要聚焦于理解任务,缺乏生成能力。本文旨在通过设计一个统一的视觉解码器,使模型能够根据文本描述生成高质量图像。 2. 2. 如何在统一模型中有效训练理解和生成任务

现有模型通常将理解和生成任务分开训练,导致模型在跨任务性能上受限。本文提出一种统一训练方法,使模型在多个任务上协同优化,提升整体性能。 3. 3. 如何实现高效的图像编辑能力

图像编辑通常需要专用模型,本文旨在通过统一模型实现基于文本指令的图像编辑,减少对专用模型的依赖,提高编辑效率与准确性。

本文的核心创新是什么

统一模型架构设计

Ovis-U1采用统一架构,将多模态理解、图像生成与图像编辑整合在同一个模型中,打破了传统模型任务隔离的限制。 2. 2. 基于扩散的视觉解码器与双向 Token 细化器

引入MMDiT(多模态扩散Transformer)作为视觉解码器,并设计双向 Token 细化器,提升文本与图像嵌入之间的交互质量。 3. 3. 统一训练策略

采用多阶段训练流程,涵盖从视觉解码器预训练到生成与编辑任务微调的全过程,确保模型在不同任务间有效迁移与协同优化。 4. 4. 无需CLIP的全局信息建模

使用可学习的[CLS] Token 替代传统的CLIP模型,实现更灵活、可训练的全局特征捕捉机制。

结果相较于以前的方法有哪些提升

多模态理解性能提升

Ovis-U1在OpenCompass基准上取得69.6分,超越Ristretto-3B和SAIL-VL-1.5-2B等先进模型。 2. 2. 图像生成性能显著提升

在DPG-Bench和GenEval基准上分别获得83.72和0.89分,表现出与GPT-4o相当的生成能力。 3. 3. 图像编辑能力领先

在ImgEdit-Bench和GEdit-Bench-EN上分别达到4.00和6.42分,展示了其在复杂编辑任务上的高精度与鲁棒性。 4. 4. 统一训练带来协同增益

消融实验证明,统一训练提升了理解和生成任务的性能,尤其在视觉编码器对齐和生成能力优化方面效果显著。

局限性总结

模型规模相对较小

Ovis-U1为30亿参数模型,在图像生成质量上仍可能不如更大规模的模型(如百亿参数模型),在复杂场景生成中可能存在细节模糊或幻觉问题。 2. 2. 训练数据依赖性强

无CLIP设计在小数据集上表现略逊于基准模型,表明更大规模和更高质量的训练数据对于充分发挥统一模型潜力至关重要。 3. 3. 缺乏强化学习优化

当前训练流程中未引入强化学习阶段,可能限制模型与人类偏好对齐的能力,影响实际应用中的交互体验。 4. 4. 图像编辑任务仍需调参优化

尽管模型在图像编辑任务中表现良好,但编辑效果对无分类器引导参数(CFG)敏感,需进一步自动化调参机制。

深入阅读版本

导读

在本报告中,作者介绍了Ovis-U1,一个拥有30亿参数的统一模型,集成了多模态理解、文生图生成和图像编辑能力。基于Ovis系列的基础,Ovis-U1结合了基于扩散的视觉解码器和双向 Token 优化器,实现了与GPT-4o等领先模型相当图像生成任务。与一些先前使用冻结MLLM进行生成任务的模型不同,Ovis-U1采用了一种新的统一训练方法,从语言模型开始。与仅基于理解或生成任务进行训练相比,统一训练能获得更好的性能,展示了整合这两种任务所实现的性能提升。Ovis-U1在OpenCompass多模态学术基准上取得了69.6分的成绩,超越了Ristretto-3B和SAIL-VL-1.5-2B等近期最先进模型。在文生图生成方面,它在DPG-Bench和GenEval基准上分别获得了83.72分和0.89分的高分。对于图像编辑,它在ImgEdit-Bench和GEdit-Bench-EN基准上分别达到了4.00分和6.42分。作为Ovis统一模型系列的初始版本,Ovis-U1推动了多模态理解、生成和编辑的边界。

1 引言

多模态大语言模型(MLLMs)的快速演进是推动通用人工智能(AGI)日益复杂的关键力量。近期发展,特别是OpenAI(2025年)推出的GPT-4o,表明能够在多种模态下理解和生成统一模型,能显著改变众多现实应用。GPT-4o将原生图像生成与High-Level语言能力相结合,使用户能够通过自然语言对话执行复杂的视觉任务。这些任务(例如图像编辑(Brooks等,2023年)、多视角合成(Mildenhall等,2021年)、风格迁移(Gatys等,2016年)、目标检测(Zou等,2023年)、实例分割(Hafiz & Bhat,2020年)、深度估计(Mertan等,2022年)、法线估计(Qi等,2018年),这些任务以往需要专用模型,现在能以高效率和准确性完成。这代表了多模态感知的突破,标志着统一多模态理解和生成模型(Zhang等,2025a)开始无缝处理文本和视觉任务的新时代的开端。

GPT-4o的出现标志着在AGI相关领域向统一的多模态理解和生成框架迈出了重要一步。这引出了两个基本问题。首先,如何使多模态理解模型具备生成图像的能力?这需要精心设计一个能与大型多模态语言模型无缝协作的视觉解码器。其次,如何使统一模型在理解和生成任务上都能得到有效训练?作者观察到GPT-4o的理解性能通过集成图像生成能力得到提升,这表明统一训练可能协同提升一系列任务的表现。在本报告中,作者将通过作者的Ovis-U1模型研究这两个问题。

受GPT-4o启发,作者提出了Ovis-U1,这是一个拥有30亿参数的统一模型,扩展了Ovis系列(Lu等人,2024)的功能。该模型整合了一个基于扩散Transformer架构的新型视觉解码器(Labs,2024a;Esser等人,2024)和双向 Token 细化器(Ma等人,2024;Kong等人,2024),以增强文本嵌入和视觉嵌入之间的交互。这些进步使Ovis-U1能够根据文本描述生成高质量图像,并根据文本 Prompt 优化图像。Ovis-U1采用统一策略进行训练,该策略同时处理多种任务,并使用多样化的多模态数据进行训练。全面的消融研究表明,作者的统一训练方法协同提升了理解和生成性能。

Ovis-U1的愿景有两个方面:首先,通过引入新颖的架构和训练策略来推进现有的MLLM模型,从而提升对多模态数据的理解、生成和编辑能力,进而增强处理复杂任务的精确性和灵活性。其次,通过开源Ovis-U1,作者旨在加速社区内的AI发展,鼓励协作研究和创新,以加快通用AI系统的创建,这些系统能够进行High-Level的多模态推理和操作。

在本报告中,Ovis-U1的问世标志着多模态AI系统发展的重要一步,既扩展了Ovis系列的优势,也为未来的进步铺平了道路。下面,作者将展示Ovis-U1的关键特性:

数据多样性:Ovis-U1在多模态数据的多样化组合上进行训练,涵盖文本图像理解、文本到图像生成以及图像编辑任务。这种多样化的训练确保模型在广泛的应用场景中表现出色,从根据文本描述生成详细图像到根据复杂 Prompt 进行图像的精炼和编辑。通过在一个统一框架中学习多个任务,Ovis-U1实现了泛化能力的提升,能够以高精度无缝处理现实世界的多模态挑战。

架构改进:在之前的Ovis模型基础上,Ovis-U1通过引入基于扩散架构的新型视觉解码器和双向 Token 细化器,增强了其多模态理解能力。视觉解码器采用多模态扩散Transformer(MMDiT)作为 Backbone ,并使用旋转位置嵌入(RoPE),能够从文本生成高保真图像。双向 Token 细化器改进了文本和视觉特征之间的交互,显著提升了文本到图像合成和图像操作任务。

统一训练:与之前专注于单一任务的模型不同,Ovis-U1采用统一训练方法,在6个训练阶段中利用多模态能力,如表2所示。这种方法确保模型能够学习平衡和整合不同任务中的知识——从理解文本和视觉输入到生成和编辑图像。这种统一框架使Ovis-U1能够在不同的应用场景中无缝执行,进一步拓展了多模态AI的性能边界。

picture.image

2 架构

Ovis-U1的结构如图2所示,每个模块的详细信息汇总于表1。总体而言,Ovis-U1在Ovis(Lu等人,2024)的架构基础上增加了视觉解码器以生成图像。

picture.image

picture.image

LLM与文本分词器。作者采用Qwen3系列(Yang等人,2025年)作为大语言模型的基础架构。为了构建一个拥有30亿参数的统一模型,作者使用Qwen3-1.7B。与以往直接使用多模态大语言模型(例如Qwen-VL(Bai等人,2025年))作为基础架构并在训练过程中保持不变的方法不同,作者的Oivs-U1以语言模型初始化,并使用视觉理解和生成数据进行训练。这种统一的训练方法协同提升了模型在理解和生成任务中的性能。

视觉编码器与 Adapter 。作者增强了Ovis的视觉编码器并采用了其原始视觉 Adapter 。该视觉编码器基于Aimv2-large-patch14-448(Fini等人,2025年)初始化,被修改为原生处理任意分辨率的图像,避免了子图像划分策略。为此,作者通过插值方法调整了原始固定尺寸的位置嵌入,并集成了2D旋转位置嵌入(RoPE)(Su等人,2024年),以提升空间感知能力。该架构还采用了可变长度序列注意力机制(Dao等人,2022年;Dao,2024年),遵循NaViT(Dehghani等人,2023年)的 Token 打包策略,以高效处理具有不同分辨率的图像批次。编码器之后,一个视觉 Adapter 使用与Ovis相同的概率 Token 化方案,连接视觉和语言模态。该模块采用像素重排操作进行空间压缩,随后通过线性层和softmax函数将特征转换为视觉词汇上的概率分布。最终输入到LLM的嵌入是基于该分布的可学习嵌入表的加权平均值。

视觉解码器与变分自编码器。作者使用扩散Transformer作为视觉解码器。具体而言,受FLUX(Labs,2024a)启发,作者采用MMDiT(Esser等人,2024)作为 Backbone 网络,并使用RoPE(Su等人,2024)和流匹配作为训练目标。通过将层数和注意力头的数量从57和24分别减少到27和16,得到一个1B视觉解码器。该解码器随机初始化并从头开始训练。由于解码器的容量有限,作者采用SDXL中的4通道VAE模型,并在统一训练过程中冻结其参数。与FLUX.1 Redux(Labs,2024b)一致,视觉语义嵌入与文本嵌入连接,作为图像生成的语义条件。此外,遵循FLUX.1 Kontext(Labs等人,2025),使用VAE编码器将上下文图像编码为潜在 Token 。与视觉语义嵌入相比,这些上下文图像 Token 包含来自上下文图像的详细信息。最后,这些视觉详细嵌入以及图像 Token (噪声)被输入到解码器的视觉流中。

细化器。作者引入了一个双向 Token 细化器,以促进视觉嵌入和文本嵌入之间的交互。遵循Kong等人(2024年);Ma等人(2024年)的研究,作者堆叠了2个带有调制机制的Transformer块来构成作者的细化器。由于LLM的不同层捕获了图像和文本的不同层次的信息,为了充分利用不同层信息粒度的差异,作者提出将最后一层的特征与倒数第二层的特征连接起来,然后将它们发送到细化器进行信息交互,这有助于生成更好的条件引导。值得注意的是,之前的基于文本的生成模型FLUX(Labs,2024a)通常引入CLIP来捕获全局特征。为了替代CLIP(Radford等人,2021年),作者引入了可学习的[CLS] Token 。通过将可学习的[CLS] Token 和由LLM生成的嵌入连接起来,然后发送到细化器进行交互,全局信息可以被捕获。

3 数据组成和训练过程

3.1 数据组成

为了训练Ovis-U1,作者利用了三种不同类型的多模态数据:多模态理解数据、文本到图像生成数据以及图像+文本到图像生成数据。下面,作者将详细阐述每一类数据。

多模态理解数据。该数据集包含公开可用的数据和内部开发的数据。作者使用的公开数据集包括 COYO、Wukong、Laion、ShareGPT4V和 CC3M。此外,作者建立了一个数据预处理流程,用于过滤噪声数据、提升标题质量,并调整数据比例以确保最佳训练性能。

文本到图像生成数据。对于作者的文本到图像生成任务,作者借鉴了Laion5B数据集和JourneyDB。具体来说,使用Laion5B时,作者首先选择美学评分高于6的样本。然后,作者采用Qwen模型为每个选定的图像生成详细描述,最终创建了Laion-aes6数据集。

图像+文本到图像生成数据。该类别可以进一步细分为四种特定类型:

  • • 图像编辑数据:作者使用了包括OmniEdit、UltraEdit和SeedEdit在内的公共数据集。
  • • 基于参考图像的图像生成数据:作者的数据来源包括用于主体驱动图像生成和风格的Subjects200K以及SynCD。用于风格驱动图像生成的Booth。
  • • 像素级控制图像生成数据:涵盖任务如边缘检测到图像转换、深度到图像转换、图像修复和图像扩展,数据来源为MultiGen 20M。
  • • 内部数据:作者还构建了额外的数据集以补充公开资源,包括风格驱动数据、内容移除、风格转换、去噪/去模糊数据、着色数据、文本渲染数据等。

3.2 训练过程

与以往直接使用预训练的多模态语言模型(例如Qwen-VL等先前工作不同,作者从预训练的语言模型开始训练Ovis-U1。考虑到预训练的语言模型和视觉编码器,Ovis总共包含四个训练过程: Adapter 预训练、视觉编码器对齐、理解学习以及DPO。作者为生成过程增加了更多的训练阶段。每个训练阶段的详细信息在表2中呈现。

阶段0:视觉解码器预训练。作者为视觉解码器构建了一个1B扩散Transformer,采用随机初始化并从头开始训练,以发展基本的图像生成能力。此阶段使用文本到图像的训练数据,使视觉解码器连同细化器能够从LLM嵌入生成图像。

第一阶段: Adapter 预训练。 Adapter 作为视觉编码器和大语言模型之间的桥梁,对齐视觉和文本嵌入。更多细节请参考Ovis论文。 Adapter 随机初始化,并在本阶段进行训练。与Ovis不同,Ovis-U1在理解、文本到图像和图像编辑任务上进行训练。

第二阶段:视觉编码器对齐。在这个阶段,视觉编码器和 Adapter 一起进行微调,以进一步对齐视觉和文本嵌入。与第一阶段类似,本阶段采用所有三个任务进行训练,生成任务有助于对齐来自不同模态的嵌入。

阶段三:理解学习。此阶段与Ovis的阶段相同,其中视觉编码器、 Adapter 和LLM的参数在理解任务上进行训练。在此阶段之后,这些参数被固定以保留理解能力。

第四阶段:生成学习。由于第三阶段调谐了LLM参数,作者随后训练了精炼器和视觉解码器,以与优化后的文本和图像嵌入对齐。作者的实验表明,与第一阶段相比,文本到图像的性能有所提升,因为第一阶段到第三阶段对文本嵌入进行了细化,以更好地与图像嵌入对齐。

阶段五:生成微调。基于文本到图像的功能,最终的训练阶段涉及对解码器进行微调,以适应文本到图像和图像编辑任务。

4 评估

与GPT-4o类似,最新的统一多模态模型具备理解输入图像、根据输入 Prompt 生成图像以及根据指令编辑图像的能力。因此,作者在三个任务上对模型进行基准测试:图像理解、文本到图像生成和图像编辑。

为评估理解能力,作者使用了广泛使用的OpenCompass多模态学术基准,包括MMBench(Liu等人,2024a)、MMStar(Chen等人,2024b)、MMMU-Val(Yue等人,2024)、MathVista-Mini(Lu等人,2023)、HallusionAvg(Guan等人,2024)、AI2D-Test(Kembhavi等人,2016)、OCRBench(Liu等人,2024b)以及MMVet(Yu等人,2024)。Avg Score是通过在这8个基准上平均性能获得的。大多数强大的多模态大语言模型已经在该基准上进行了评估。因此,统一模型可以方便地与它们进行比较。

文本到图像生成。为了评估文本到图像生成能力,作者使用CLIPScore(Hessel等人,2021年)、DPG-Bench(Hu等人,2024年)和GenEval(Ghosh等人,2023年)基准测试。CLIPScore被用于DALL-E 3(Betker等人,2023年),前1000个 Prompt 被用于CLIPScore计算。DPG-Bench和GenEval是两种广泛使用的文本到图像模型和统一模型的基准测试。一些先前的工作重写GenEval的 Prompt 以提高性能。在本文中,作者报告使用原始 Prompt 的性能。

图像编辑。为评估图像编辑能力,作者采用了GEdit-Bench(刘等人,2025)和ImgEdit(叶等人,2025)两个最近引入的基准,分别包含606和811个图像指令对。这两个基准都使用先进的GPT模型来评估编辑后的图像。

5 实验

在本节中,作者首先概述了Ovis-U1在理解任务、文生图生成和图像编辑能力方面的整体性能。随后,作者展示了若干消融实验,以验证Ovis-U1的有效性,特别关注于细化器设计以及通过理解与生成组件的协同训练所实现的性能提升。最后,作者展示了定性的结果,以说明Ovis-U1的能力。

5.2 精细调整的消融研究

如表9所示,作者针对文本到图像生成任务探索了多种token细化器设计,对比了基于CLIP和无需CLIP的方法。需要注意的是,这些消融实验是在Ovis-U1的早期版本上,并使用有限训练数据完成的。基准模型结合了T5文本编码器(Raffel等,2020)和在大约10M文本到图像数据上训练的CLIP图像编码器,表现出良好性能,CLIPScore为32.19,DPG-Bench得分为82.32。在变体V1中,当T5被替换为Qwen2.5-1.5B-Instruct(Yang等,2024)时,仅使用最后一层特征导致性能下降,CLIPScore为32.12,DPG-Bench得分为80.97。然而,在变体V2中将倒数第二层和最后一层特征拼接后,性能恢复到基准水平,得分分别为32.19和81.48。通过在变体V3中将Qwen2.5-1.5B-Instruct替换为用于图像文本对齐的微调版本(Ovis2),进一步提升了性能,DPG-Bench得分小幅提高至82.37,但CLIPScore略有下降至32.18。此外,还测试了无需CLIP的方法,变体V5使用CLS Token 获取全局信息表现优于变体V4(使用平均细化器输出),尽管有所改进,但无需CLIP的变体仍略低于基准性能,表明更大数据集可能有助于更好地探索无需CLIP的方法。

picture.image

在测试更大的50M训练数据时, Baseline 模型再次优于其他设计,其CLIPScore为32.57,DPG-Bench得分为82.97。在无CLIP设计中,使用CLS token的Variant V7实现了更高的DPG-Bench得分83.81,尽管其CLIPScore略低于 Baseline 模型。这些发现强调了token精炼设计在基于LLM的文本到图像模型中的关键作用,突显了在token精炼过程中对特征进行仔细选择如何显著影响文本与图像信息的对齐,进而影响模型性能。结果表明,为了充分发挥无CLIP方法的潜力,特别是为了提升在复杂基准测试上的生成性能,需要进一步优化和更大的数据集。

5.3 通过统一训练增强理解

表10展示了OpenCompass多模态学术基准的详细结果。作者将未使用统一训练的Ovis作为对比 Baseline 。与该 Baseline 相比,Ovis-U1在平均分数上提升了1.14分。这一提升验证了在训练阶段1和阶段2期间,利用文本到图像生成和图像编辑任务对视觉编码器进行对齐的有效性。值得注意的是,大多数先前统一的模型通常与其MLLM主干相比表现不佳。例如,使用Qwen2.5-VL-7B(Bai等人,2025)作为其主干的Ming-Lite-Uni(Gong等人,2025)在理解性能上表现较低。一些先前方法(Chen等人,2025a;Lin等人,2025)保持MLLM固定,从而错失了提升理解性能的机会。

picture.image

5.4 统一训练增强生成

表11和表12总结了在不同训练阶段图像生成性能的概要。需要注意的是,这些消融研究是在Ovis-U1的早期版本上进行的。在第一阶段,模型使用全面的文本到图像数据训练,从而取得了令人印象深刻的性能结果。在视觉和文本嵌入对齐之后,第四阶段进一步增强了模型的生成能力。在第五阶段,同时使用了文本到图像和图像编辑数据。值得注意的是,图像编辑数据的加入导致在DPG-Bench上文本到图像性能提升了0.77。

picture.image

picture.image

5.5 基于指令的图像编辑

遵循InstructPix2Pix(Brooks等人,2023)的方法,作者对文本和图像条件均实现了无分类器引导。图4展示了在不同无分类器引导设置下图像编辑的结果。较高的

值在生成输出中保留了更多输入图像的细节(见图4中的蓝色和绿色框以获取详细信息),而较高的

值则增强了模型对编辑指令的遵循度。定量评估结果汇总于表13和表14。总体而言,Ovis-U1对

值的变化表现出鲁棒性,在ImgEdit-Bench和GEdit-Bench-EN上的结果差异均保持在0.2以内。此外,最佳

设置在不同基准测试中有所不同。值得注意的是,当

设置为2且

设置为7.5时,Ovis-U1在ImgEdit-Bench上获得了4.13的分数,高于表3中报告的分数。这种差异是因为在表3中,所有基准测试均采用了相同的

设置。

picture.image

picture.image

picture.image

picture.image

5.6 更多定性结果

作者在图5、6和7中展示了全面的定性结果,以展示Ovis-U1在多模态任务中的能力。

picture.image

如图7所示,该模型通过解释复杂视觉内容并生成与上下文一致的响应,展现出强大的推理能力。它在识别细粒度细节方面表现出色,例如物体属性、空间层次和微妙交互,同时保持对特定领域任务的上下文感知。

picture.image

图5突出了模型生成具有多样美学和结构一致性的高保真图像的能力。Ovis-U1合成视觉上引人注目的输出,涵盖照片级真实场景、抽象概念和混合设计,同时保留复杂的纹理。即使在涉及多目标排列、空间约束或抽象属性绑定的复杂 Prompt 下,它也能表现出色。

图6展示了Ovis-U1在局部修改中保持背景完整性的精确性。该模型执行内容替换、风格转换和结构编辑时,产生的伪影极少,严格遵循指令 Prompt 。

picture.image

这些定性结果与之前呈现的定量评估相结合,将Ovis-U1定位为多模态生成任务的通用基础模型。其紧凑的3.6B参数架构在效率与可扩展性之间取得了平衡,通过更大规模的训练实现性能提升的同时,保持了实际部署的可行性。

6 结论

在本报告中,作者介绍了Ovis-U1,一个拥有30亿参数的统一模型,该模型在多模态理解、文生图生成和图像编辑方面表现出色。作为Ovis统一模型系列的初始版本,本报告着重解决了几个关键的基础性挑战:视觉解码器的设计、其与大语言模型的连接方式,以及统一模型的综合训练流程。作者强调了统一训练在使视觉编码器对齐方面的重要作用,通过协同训练显著提升了理解和生成性能。此外,作者采用了一个稳健的评估框架来评估统一模型的能力。作者收集了该领域广泛接受的基准测试,涵盖理解、文生图生成和图像编辑,以确保全面评估。仅拥有30亿参数的Ovis-U1在这些基准测试中展现了强大的性能,甚至超越了一些特定任务的模型。这一成就突显了Ovis-U1在提升统一模型能力边界方面的潜力。

未来,作者将专注于推进强大的统一模型。首先,作者计划通过增加参数数量来扩展Ovis-U1。在图像生成领域,较小的模型往往难以处理伪影和幻觉。通过引入更多参数,模型可以缓解这些问题并生成更高质量的图像。其次,作者将通过收集和整理更多专门为统一模型训练而设计的多样化、高质量数据集来增强作者的训练数据 Pipeline ,特别强调图像-文本交错内容。第三,作者计划创新针对统一模型的架构设计。为了提升图像编辑能力,作者将实施专门优化的视觉编码器-解码器结构,以保留输入图像中的细粒度细节。最后但同样重要的是,作者认识到Ovis-U1目前缺乏强化学习阶段,该阶段已被证明对大型模型优化至关重要。开发有效的方法以使统一多模态模型与人类偏好保持一致,仍然是该领域的一个重要开放性研究问题。

参考

[1]. Ovis-U1 Technical Report

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论