点击下方卡片,关注
「集智书童」
公众号
导读
大型多模态模型(LMMs)通过利用Transformer解码器中文本和视觉 Token 之间的注意力机制“观察”图像。理想情况下,这些模型应专注于与文本 Token 相关的关键视觉信息。然而,近期研究发现,LMMs具有一种异常倾向,即持续地将高注意力权重分配给特定的视觉 Token ,即使这些 Token 与相应的文本无关。
在本研究中,作者调查了这些无关视觉 Token 出现背后的属性,并考察了它们的特征。作者的发现表明,这种行为是由于某些隐藏状态维度的大量激活引起的,这与语言模型中发现的注意力陷阱相似。因此,作者将这种现象称为视觉注意力陷阱。特别是,作者的分析揭示,移除无关的视觉陷阱 Token 不会影响模型性能,尽管它们获得了高注意力权重。因此,作者将对这些 Token 的注意力视为过剩资源,重新分配注意力预算,以增强对图像的关注。为了实现这一点,作者引入了视觉注意力再分配(VAR)方法,该方法可以在以图像为中心的头中重新分配注意力,作者将其识别为天生专注于视觉信息。VAR可以无缝应用于不同的LMMs,以提高包括通用视觉-语言任务、视觉幻觉任务和以视觉为中心的任务在内的广泛任务的表现,而无需额外的训练、模型或推理步骤。
实验结果表明,VAR通过调整其内部注意力机制,使LMMs能够更有效地处理视觉信息,为增强LMMs的多模态能力提供了新的方向。
1 引言
大型多模态模型(LMMs)正在积极扩展大语言模型在多模态任务方面的能力。特别是,LMMs利用预训练的视觉编码器(Radford等,2021)处理图像数据,并利用大语言模型的transformer解码器生成文本响应。这种简单而强大的架构已被证明在利用图像中的视觉信息进行视觉-语言任务(如视觉问答、图像描述和视觉推理)方面非常有效。
为了将视觉信息融入文本响应中,LMMs依赖于Transformer解码器中的注意力机制。具体来说,在处理多模态输入时,视觉和文本 Token 之间的注意力权重决定了每个文本 Token 对相应视觉信息的关注程度。例如,如图1左上角所示,当文本 Token 是“bi rd'”时,模型专注于与图像中鸟相关的视觉 Token 。直观上,LMMs应该主要关注与每个文本 Token 相关的视觉 Token 。
然而,在实际应用中,并非所有注意力都指向相关的视觉 Token 。如图1所示,该模型还将高注意力权重分配给与对应文本无关的视觉 Token 。这种现象在LMMs中普遍存在,并出现了一种显著的模式,即无关的视觉 Token 在不同文本 Token 中持续出现在固定的位置。例如,在图1中展示的每个案例中,无关的视觉 Token (用红色方框突出显示)无论文本 Token 如何,都始终占据相同的位置,这表明存在一种潜在的模式。这种现象的原因和意义仍然是开放性问题,这也激励了本研究。
在本研究中,作者探讨了无关视觉 Token 的潜在属性和特征。作者发现,这些 Token 在视觉注意力图中产生,源于隐藏状态中特定维度的巨大激活。这种机制类似于在语言模型中观察到的注意力汇聚现象,模型持续地对具有有限语义意义的 Token (例如,“BOS”,* .,
等)分配较大的注意力权重。无关视觉 Token 可以通过少数几个特定维度中的极端幅度来识别,作者将其称为视觉汇聚 Token ,因为它们也来自图像的有限语义信息。此外,作者证明,尽管模型对它们分配了高注意力权重,但移除这些视觉汇聚 Token 并不会显著影响模型响应的质量。
基于这些实验,作者提出将分配给汇点token的注意力权重作为“注意力预算”进行回收。鉴于近期研究报道,分配给图像的注意力通常比分配给文本的注意力不足,作者将从汇点token中分配出的多余注意力重新分配给图像。此外,考虑到每个注意力头具有不同的功能,作者根据视觉注意力汇点的存在,确定了主要负责关注视觉信息的 Head ,即图像中心 Head 。最后,作者引入了视觉注意力再分配(VAR)方法,这是一个两步法:首先,选择图像中心 Head ;其次,将这些选择 Head 的注意力预算重新分配,以加强图像在这些 Head 中的关注。
总之,作者揭示了无关视觉 Token 的潜在特性,并证明它们与语言模型中的sink tokens类似,对于模型的运行并非必需。针对这一问题,作者提出了VAR,该算法将注意力从sink tokens重新分配,以增强对图像的关注。实验结果表明,VAR在包括通用视觉-语言任务、视觉幻觉任务和视觉中心任务在内的多种任务中,均提升了LMMs的整体性能。值得注意的是,VAR可以应用于各种模型,而无需额外的训练、模型或推理步骤。这表明现有的LMMs可以迅速从VAR中受益,通过加强对其图像的关注来进一步提升其多模态能力。作者的研究提出了一种有效的方法来解决图像注意力不足的问题,并为理解LMMs中的注意力机制提供了新的视角。
2 相关工作
视觉注意在大型多模态模型中的研究。在大型多模态模型(LMMs)中,文本与图像之间的注意力机制在将视觉信息融入文本响应中起着关键作用。因此,模型对图像的关注通常以视觉注意力图的形式表示。然而,最近的研究表明,LMMs在视觉注意力模式上表现出某些不直观的行为。具体来说,LMMs倾向于不成比例地关注少数视觉 Token ,一些 Token 即使没有对应的文本 Token 也会收到高注意力权重。此外,最近的研究表明,LMMs往往无法充分关注视觉信息总体。为了解决这个问题,提出了视觉对比解码,该方法通过对比两个模型的输出(一个有视觉输入,一个没有)来鼓励更多地依赖视觉线索。此外,其他方法通过增加分配给图像的注意力权重来增强这一效果,确保视觉信息得到足够的关注。
注意力汇聚现象在语言模型中。注意力汇聚是语言模型中一种引人入胜的现象,其中某些语义意义有限的汇聚 Token (例如,'BOs'、*.','、',
等)获得了不成比例的高注意力权重。在视觉Transformer中,包含少量信息的背景 Token 也表现出类似的行为,这表明注意力汇聚是不同模态中的一种常见现象。尽管汇聚 Token 获得了大量的注意力权重,但它们对模型整体预测的贡献微乎其微。最近的研究表明,注意力汇聚源于汇聚 Token 隐藏状态中特定维度的巨大激活,这种激活发生在高注意力分配之前。Gu等(2024)进一步研究了导致注意力汇聚出现的因素。此外,Yu等(2024)重新校准了分配给特定注意力头汇聚 Token 的注意力权重,以从语言模型中获得更准确的响应。作者通过引入LMM中的视觉注意力汇聚的概念,将注意力汇聚的概念扩展到多模态领域。
3 预备知识
LMMs通常由视觉编码器、 Projector 和大语言模型组成。视觉编码器和 Projector 从图像中提取视觉特征并将它们投影到文本对齐的表示中。如图2左侧所示,大语言模型接收三种类型的输入:(1)系统指令,(2)来自图像的视觉特征,以及(3)包括用户 Query 和先前上下文的文本。然后,模型以自回归的方式生成响应。在本文中,作者将大语言模型的离散输入以及其内部的嵌入称为 Token 。
令系统 Token 、视觉 Token 和文本 Token 的索引分别表示为
,它们分别是所有输入 Token
索引的子集。输入经过
个Transformer块处理,每个块包含多头注意力(MHA)和 FFN (FFN):
是第
层中第
个 Token 的输入,而
分别是 MHA 和 FFN 的输出。
作者现在关注MHA,它使得不同 Token 之间能够进行交互。遵循Elhage等人(2021年)的研究,单个输入
与之前的 Token
进行交互。
如下所示:
是输出投影矩阵,
分别是 Query 和键投影矩阵。
是从
到
的注意力权重
。式(2)表明,注意力权重
可以解释为在处理
时,LMM 关注
的程度。当作者研究文本 Token 与视觉 Token 如何相互作用以生成响应时,作者关注从视觉到文本 Token 的注意力权重,即
(
),并以视觉注意力图的形式进行研究。
4 视觉注意力汇聚
在LMMs中,为了生成考虑视觉信息的响应,文本 Token “通过”Transformer解码器中的注意力机制“看到”图像。从视觉 Token (键)到文本 Token ( Query )的注意力被解释为单个文本 Token 对视觉信息的关注。基于这种解释,作者可以研究视觉 Token 到文本 Token 的注意力权重,以视觉注意力图的形式。视觉注意力图可以表达LMMs中文本 Token 与视觉 Token 之间的交互。图1显示了特定文本 Token 与视觉 Token 之间的视觉注意力图。模型预期只关注与文本 Token 相关的视觉 Token 。
然而,该模型也关注了一些与对应文本 Token 无关的视觉 Token ,如先前研究所述。例如,如图1右上角所示,模型对与文本 Token “香蕉”无关的视觉 Token (红色方框)分配了高注意力权重。此外,无关的视觉 Token 存在于固定的位置,不受特定文本 Token 的影响。这种一致的模式表明,无关的视觉 Token 具有其自身的固有属性,导致其出现。作者对这些无关视觉 Token 背后的属性及其在LMM中的意义表示兴趣。
在以下章节中,作者发现视觉注意力图中的无关视觉 Token 源于隐藏状态特定维度的巨大激活。这一现象类似于语言模型中的注意力陷阱,其中模型将大量的注意力权重分配给具有有限语义意义的 Token (例如,BOs)。作者将这种现象称为视觉注意力陷阱,并进一步分析其特征。
4.1 探究无关视觉 Token 的性质
作者将视觉注意力图中的高权重视觉 Token 分为两类:无关视觉 Token 和有关视觉 Token 。无关视觉 Token 是指与对应文本 Token 无关的视觉 Token 。相比之下,有关视觉 Token 是指与对应文本 Token 相关的视觉 Token 。图2分别用红色和蓝色方框说明了无关和有关视觉 Token 的示例。
如何区分无关的视觉 Token ?作者关注到无关的视觉 Token 在固定位置持续出现,不受文本 Token 的影响。如图1左下角所示,无论文本 Token 是kni fe还是cup,模型始终关注相同的无关视觉 Token 。这一观察表明,无关视觉 Token 的出现并非由于文本 Token ,而是由于它们自身的固有属性。因此,作者检查无关 Token 的隐藏状态,以研究它们的独特属性。图2右侧显示了无关视觉 Token (红色)、相关视觉 Token (蓝色)以及‘BOs’ Token (绿色)的隐藏状态。
无关视觉 Token 在特定维度上激活度较高。作者观察到,无关视觉 Token 的隐藏状态在特定维度上表现出大量激活,而相关视觉 Token 则没有。此外,在无关视觉 Token 中高度激活的维度与“BOs” Token 的维度相同,该 Token 被称为语言模型中的代表性汇点(Sun等,2024a)。这一观察结果表明,无关视觉 Token 与注意力汇点密切相关。
为了进一步扩展和形式化这一观察,作者检查了 Token 的隐藏状态中特定维度的巨大激活值,这些维度被称为汇维度
。
是由 LLMs 的基本语言模型确定的固定维度集。例如,LLaMA2是 LLaVA-1.5-7B的基本语言模型,其
。作者在附录 A.1 中验证了 LLMs 中的汇维度与基本语言模型中的维度一致,并使用了 Sun 等人(2024a)报告的汇维度。给定一个 Token 的隐藏状态
,作者表示汇维度值为:
其中
是隐藏状态的第
维。为了稳定性和考虑,作者通过维度的均方根对隐藏状态进行归一化,并且只考虑汇维度中的最大值。如图2 的最右侧所示,无关视觉 Token (红色)的汇维度值显著高于相关视觉 Token (蓝色)。
汇合维度值可以区分无关视觉 Token 和相关的视觉 Token 。作者将汇合维度值纳入以区分无关视觉 Token 和相关的视觉 Token 。对于视觉 Token ,作者在图3(a)中绘制了汇合维度值的成对值和相应的注意力权重。详细的实验设置在附录D.3中描述。具有高注意力权重的视觉 Token 的汇合维度值分布明显分为两组:一组汇合维度值低,另一组汇合维度值高。从这一分析中,作者现在将具有高汇合维度值的视觉 Token 定义为视觉汇合 Token ,需要注意的是,它们与语言模型中的注意力汇合密切相关。
具体来说,作者设置了一个阈值
来划分图3(a)中的分布,并将汇点 Token 的索引定义为 e = j ∈ I | Φ(x-1) ≥ T},其中 ∞-1 是第
层中第
个 Token 的输入隐藏状态。在后续分析中,作者设定
。作者注意到,
的定义也涵盖了所有汇点 Token 的索引,包括视觉和文本 Token 。作者用
表示视觉汇点 Token ,其中
是视觉 Token 的索引集合。作者称其他视觉 Token 为视觉非汇点 Token ,并方便地表示为
。虽然视觉汇点 Token Zvis 的定义也包括了图3(a)中显示的低注意力权重 Token ,但由于它们的注意力权重低,它们对模型的最小贡献可以忽略不计。因此,在后续分析中作者可以忽略它们。
4.2 分析视觉sink token的特征
作为下一步,作者分析了视觉汇合 Token 的特性。具体来说,作者进行了实验以验证视觉汇合 Token 与语言模型中的汇合 Token 具有相似的特性。汇合 Token 本身对模型的响应影响不大。作者通过以下方式验证视觉汇合 Token 是否也不对模型的输出做出贡献:(1)评估带有视觉汇合 Token 的模型性能;(2)测量视觉汇合 Token 对残差流的机制贡献。
Token Masking 实验。为了评估视觉汇聚 Token 对模型输出的影响,作者屏蔽了从视觉汇聚 Token 到文本 Token 的注意力。这种操作使得模型无法从视觉汇聚 Token 中获取任何信息。如图3(b)所示,屏蔽视觉汇聚 Token 对模型性能的影响很小。相比之下,屏蔽相同数量的随机视觉 Token 会导致性能显著下降。这一结果证明了视觉汇聚 Token 对模型响应的贡献可以忽略不计。
贡献分析。作者进一步研究了视觉汇聚 Token 对剩余文本流的机制贡献。具体来说,作者测量了视觉汇聚 Token 对文本 Token 剩余流的注意力贡献(Kobayashi等,2020;Basu等,2024),其计算公式为
,其中
。
视觉汇合 Token 对残差流的注意力贡献显著低于其他视觉 Token 。作者还从定性上确认,无关的视觉 Token 被视觉汇合 Token 的定义明确过滤掉,如图3(d)所示。
关于视觉注意力汇聚点的进一步讨论。为了更深入地探索视觉注意力汇聚点,作者在附录A.2中对视觉汇聚 Token 进行了进一步分析,并讨论了其特征。在此,作者总结以下关键发现:
(1)视觉汇聚 Token 主要位于背景区域,信息量较小。这一观察结果与ViT的研究发现相似。此外,考虑到语言模型中的注意力汇聚出现在语义上不太有意义的 Token 中(例如,*,',
,视觉汇聚 Token 也类似于语言模型的研究发现。
(2)作者发现视觉汇聚 Token 在文本汇聚 Token 相同的维度
上表现出大量激活。这一证据表明,视觉汇聚 Token 和文本汇聚 Token 的形成具有相同的潜在机制,这种机制是从基础语言模型继承而来的。总之,一些视觉 Token 在语义上不太有意义,LMM将它们视为视觉汇聚 Token ,类似于语言模型的行为。作者将如何识别训练过程中的视觉 Token 作为汇聚 Token 的研究留待未来进行。
4.3 视觉注意力汇聚器中的冗余注意力:作者能回收利用它们吗?
作者的实验表明,视觉汇聚 Token 对模型输出没有贡献,尽管它们具有高注意力权重。这促使作者考虑将汇聚 Token 的注意力权重视为可循环利用的“注意力预算”资源。近期研究表明,与文本相比,LMMs往往对图像的注意力不足,这可能导致视觉语言任务中的性能不佳。通过从注意力预算中补偿对图像的注意力,可以缓解这个问题。
此外,视觉汇聚 Token 可以被用来计算真实图像内容。尽管视觉汇聚 Token 获得了较高的注意力权重,但它们与对应文本 Token 没有相关的语义意义。相反,视觉非汇聚 Token 比视觉汇聚 Token 更接近真实图像内容。因此,作者可以利用分配给视觉非汇聚 Token 的注意力作为衡量注意力头关注图像程度的指标。在下一节中,作者将应用这一概念来选择专注于图像的具体注意力头。
5 视觉注意力重分配
在本节中,作者介绍了视觉注意力重分配(VAR)方法,这是一种基于第4.3节讨论的,用于增强基于LMMs图像关注度的方法。VAR包括两个步骤:(1) 根据视觉注意力汇聚选择图像中心化的 Head (第5.1节)和(2) 仅在所选 Head 中,将注意力预算从汇聚 Token 重新分配到视觉非汇聚 Token (第5.2节)。VAR的概览如图5所示。
5.1 选择以图像为中心的 Head
在第4节中,作者提出可以通过重新分配来自sink tokens的注意力权重来补充对图像的不足注意力权重。然而,将重新分配应用于所有注意力头会导致性能显著下降(见表4)。鉴于transformer中的每个注意力头可能具有不同的角色,简单地在所有头中重新分配注意力权重可能会忽略一些注意力头的作用,这些头的作用与图像的交互无关。因此,在重新分配注意力权重之前,应先选择以图像为中心的头,这些头负责关注图像。
视觉注意力汇聚器可用于选择以图像为中心的头。由于对视觉 Token 注意力权重低的头显然没有关注图像,作者只考虑对视觉 Token 注意力权重高的头。具体来说,对于每一层
,作者首先丢弃视觉 Token 注意力权重之和小于O.2的头。之后,作者引入视觉注意力汇聚器来选择以图像为中心的头。如果模型对视觉汇聚 Token 分配了高注意力权重,即使头没有关注图像,视觉 Token 的注意力权重之和也可能很高。基于第4.3节的讨论,分配给视觉非汇聚 Token 的注意力权重比例可以指示每个注意力头实际上关注重要视觉信息多少。因此,根据第3节中的符号,作者定义视觉非汇聚比
为:
和
分别表示所有视觉 Token 和视觉非汇点 Token 的集合。当视觉非汇点比率
较高时,作者可以预期在层
中的注意力头
会更多地关注重要的视觉信息。
Head 具有高视觉非下沉比专注于重要区域。为了验证视觉非下沉比
的有效性,作者根据视觉非下沉比对注意力 Head 进行排序和可视化,如图4所示。作者发现,具有高视觉非下沉比的 Head 更有可能集中于与给定文本 Token 相关的重要视觉 Token 。另一方面,具有低视觉非下沉比的 Head 对各种视觉 Token 表现出Sparse且分散的注意力模式。作者选取
的注意力 Head 作为以图像为中心的 Head 。图5(a)说明了选择过程。在这里,
是一个超参数,用于控制所选 Head 的数量。作者进一步在附录A.3中研究了以图像为中心的 Head 特征。
5.2 重新分配注意力权重
在选择了以图像为中心的头之后,作者将来自汇合 Token 的注意力权重重新分配到所选头中的视觉非汇合 Token 。图5(b)说明了重新分配的过程。作者首先将来自汇合 Token 的注意力权重的一部分
(
)累积到注意力预算
中。部分
控制重新分配的注意力权重量。
为简洁起见,以下作者将省略上标
。汇点 Token 的注意力权重降低至
,注意力预算计算如下:
然后,作者将注意力预算分配给视觉非汇点 Token (即
)。受Yu等人(2024)的启发,作者考虑视觉 Token 的相对重要性重新分配注意力权重。在重新分配注意力权重后,对视觉非汇点 Token 的注意力权重更新如下:
该方法确保在重新分配后,注意力权重的总和仍然等于1(
),从而保持整体分布。请注意,注意力权重的重新分配应用于所有文本 Token
,包括指令和生成的响应。
6 实验
6.1 实验设置
模型设置。由于VAR仅修改了LMM的注意力,因此可以直接将VAR应用于各种LMM,无需额外的训练、模型或推理步骤。作者使用LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-1.5-HD-13B、VILA-13B、Qwen2-VL-7B和InternVL2-8B作为作者的基础模型。
任务与基准。作者在广泛的视觉-语言基准上评估VAR。基准分为三类:通用视觉-语言任务、视觉幻觉任务和视觉中心任务。
(1)通用视觉-语言任务评估了LMMs的综合多模态能力。作者在10个基准上与 Baseline 模型进行了比较。
(2)视觉幻觉任务评估模型的响应是否与图像内容一致,以确保模型的可靠性和可信度。作者使用了CHAIR、POPE和MMHal-Bench。
(3)视觉中心任务评估视觉理解能力,例如确定图像中物体之间的空间关系。作者使用了MMVP、CV-Bench2D和CV-Bench3D。关于任务和基准的更多详细信息请见附录D.1。
实现细节。作者在同一任务类型下的所有基准测试中使用了相同的超参数。在实验中,作者将
和
设置为所有实验设置的超参数。
在表1中,
设置为0.8用于通用视觉-语言任务,在表2中设置为0.5用于视觉幻觉任务,在表3中设置为0.9用于以视觉为中心的任务。
作者不修改最后一层的注意力头,因为最后一层被认为具有专门的角色。
6.2 主要结果
实验结果分别如表1、表2和表3所示,涵盖了通用视觉-语言任务、视觉幻觉任务和视觉中心任务。VAR在所有基准测试中均可靠地提升了基础模型的表现。尽管基准测试具有不同的特性和评估设置,VAR在无需针对每个基准进行特定超参数调整的情况下展现了鲁棒的性能。具体来说,表2表明VAR在所有基准测试中有效地缓解了视觉幻觉,而表3则展示了通过编辑LMMs的注意力机制可以增强复杂的视觉理解能力。值得注意的是,带有VAR的LLaVA-1.5-7B在GQA、VizWiz、MME和POPE上的表现优于未添加VAR的LLaVA-1.5-13B,这表明仅通过增强对图像的关注而无需增加模型大小,就有足够的提升空间。
6.3 分析与讨论
逐步消融研究。作者对LLaVA-1.5-7B上的VAR的每个步骤的有效性进行了消融研究。作者验证了以下两点的必要性:
(1)选择以图像为中心的头;
(2)重新分配注意力权重到视觉 Token 。
首先,作者在表4中比较了选择与未选择以图像为中心的头时模型的表现。结果显示,将注意力权重重新分配到所有头可能会导致某些注意力头的功能严重受损,使模型无法生成响应(即,表4中未选择头的0.0分)。
正如作者在第5.1节中讨论的,头选择对于性能提升至关重要。其次,作者在表5中比较了模型在重新分配注意力预算到视觉和文本 Token 、仅到文本 Token 和仅到视觉 Token (即VAR)时的表现。仅将注意力分配到文本 Token 几乎没有改善,甚至在某些情况下,性能有所下降,因为模型已经足够关注文本 Token 。而将注意力分配到两个 Token 可以略微提高模型的表现,但将注意力分配到视觉 Token 是最有效的。结果证实,VAR通过仅将注意力预算重新分配到视觉 Token ,有效地补充了视觉注意力的不足。
超参数。作者探讨了超参数
和
对性能的影响。以下概述了关键发现,更详细的结果见附录B.2:(1)向量自回归(VAR)对超参数的选择具有鲁棒性。在合理的超参数值范围内,所有任务的性能均持续提升。(2)
和
的最佳值在所有任务中是一致的。因此,可以为一个
和
的单一值应用于所有任务。(3)虽然最佳
值在不同任务中有所变化,但作者证明了同一任务类型内的不同基准测试中,最佳
值保持一致。基于这一发现,作者为同一任务类型的所有基准测试设置了一个单一的
值。
讨论。作者对图6中基础模型和VAR的视觉注意力图进行了定性分析。作者观察到VAR有效地重新分配了注意力预算到图像上,使模型能够充分关注关键视觉 Token 。更多定性结果见附录E。此外,VAR可以无缝集成到现有方法中,以增强LMMs的性能,例如视觉对比解码(VCD)(Leng等,2024)。作者在附录B.1中提供了与VCD的实验结果。总体结果提供了证据,证明引导内部注意力机制是提高LMMs多模态能力的一种有效方法。
7 结论
本文揭示了LMMs中视觉注意力汇聚点的性质和特征,证明该模型持续关注图像的不相关部分。此外,作者提出了视觉注意力再分配(VAR)方法,通过回收视觉汇聚点中剩余的注意力预算,来强调与对应文本 Token 相关的视觉信息。
实验结果表明,仅通过编辑注意力图,LMMs在观察图像方面可以表现得更好。作者希望作者的工作能够有助于理解LMMs中的注意力机制,并为提高LMMs的多模态能力指明新的方向。
参考
[1]. SEE WHAT YOU ARE TOLD: VISUAL ATTENTION SINK IN LARGE MULTIMODAL MODELS
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)