干货｜一家企业，如何0-1构建标签体系？

picture.image

标签是数据从业者日常高频使用的一个数据工具，在精细化运营、数据分析等多种场景中，标签的作用显著，通过对数据的特征化，可以帮助数据人员对用户、商品等信息进行整理、筛选以及洞察分析，提高对数据的使用效率。

在本篇内容中，我们将系统化为大家讲解标签和标签体系，从 理解标签和标签体系的作用、标签的类别和应用场景，以及如何从0到1建立标签体系4个方面 ，并通过案例场景剖析，让大家更好理解标签的创建和使用。

picture.image

文｜金磊来自火山引擎客户数据平台VeCDP团队****

picture.image

在进一步讨论标签相关的内容前，让我们先明确一下标签和标签体系具体是什么。

/ 标签是什么 /

一般对标签有如下的定义： 标签是信息组织的一种方式，代表了某个对象/主体的抽象特征，可以帮助对信息/数据进行分类、描述、分享或者检索。其实标签本质也是一种数据工具，可以提升不同应用场景中使用数据的效率。

标签的主体： 主体或者可以说实体、对象，一个标签代表着一条数据，这条数据需要有对应的主体，比如用户（比如学生、老师）、商品（比如汽车）、虚拟物品（比如视频）、场所（比如店铺），这些都可以作为标签的主体。

在很多情况下，我们需要多个主体的数据同时使用，比如上述人货场模型中的分析。这种多种主体/多种对象的需求是广泛而普遍的，因此在火山引擎的营销套件产VeCDP中，我们支持了多主体的能力。

/ 标签体系是什么 /

顾名思义，标签体系由标签构成，是一套可以长期使用并且适用性较强的框架，可以把标签合理的组织起来，并长期维护下去。标签体系一般有如下的特点：

1. 分类明确

● 有特定的主题，或层级分类，可以来对标签进行组织和管理，提升使用和维护的效率。

2. 结构化

● 在分类下，整体根据一定的逻辑进行结构化拆分，形成金字塔/树状结构，更好的对标签进行管理。
● 层级也不宜过多，一般5层内即可，便于快速查找和使用。

3. 复用性和可扩展性

● 搭建最初的结构时，需要考虑到后续的复用和继续扩展，设计和放置要合理。举例：如果一个标签是原子性的，不可再向下拆分，那就不应该和大的分类放在一个层级。

picture.image

标签的类别可以根据不同的维度进行分类，常见的有以下几种：

/ 按标签性质分类 /

根据标签性质和所表达的内容，我们可以将标签分为如下几类：

●

事实类标签： 这类标签表示了基本的事实，意味没有进行再次加工改变固有属性，比如用户籍贯，性别，职业，以及用户行为相关的标签等。

●

统计类标签： 某些情况下，我们希望基于已有的数据，经过统计分析之后得到一些结论，并将这些结论形成标签，便于直接使用。比如「用户最喜欢的10款车型」，这个标签是通过统计全部用户的喜欢车型后，分析计算后得出的。（VeCDP中，可以通过偏好标签，快速创建出类似的统计类标签）。

● 模型预测类标签： 如前文所说，在我们获取到的数据中，有时无法仅仅通过已有的事实数据或者统计得到我们想要的结果，这时就需要基于已有的数据源进行建模，预测出未知的结果。

/ 按创建方式分类 /

火山引擎的营销套件工具-客户数据平台veCDP的标签支持多种创建方式，以满足不同场景的创建需求，所以在分类上是以创建方式进行归类的，包含以下几种类型：

●

规则类： 指的是在已有数据源的基础上通过设置一定的计算规则，生成新的标签。

●

洞察类： 指的是基于洞察分析模型创建的标签，内置了两类模型：AIPL和RFM。

●

扩展类： 指的是在已有的数据源基础上，再次加工处理扩展得到标签，支持通过内置的可视化建模工具，使用多种算子自定义建模输出或通过sql查询生成新的结果标签。

●

导入类： 直接使用已有数据源进行创建，数据源中的一个字段可以被注册成标签。

●

填报类 ：手动进行补充的标签，一般通过人工录入创建。

picture.image

/ 按标签数据源分类 /

标签也可以按照其底层的标签数据源进行分类，根据数据源的不同类型，可以拆分为以下几类：

1. 直接映射类标签

直接映射类的标签是指将清洗好的数据源中的某个字段，直接创建为标签，创建过程简单，使用方便。

比如CDP的导入标签，以及CDP新增的模板标签（提供数据源模板-使用这个模板中的字段可以快速创建对应标签）。

2. 计算类标签

在已有数据源的基础上，再次加工、组合、统计计算得到新的标签。

比如CDP的规则标签，可以通过已有标签的四则运算生成新的标签。

3. 模型挖掘类标签

一些复杂的场景，单一的数据源无法满足需求，需要将已有的多维度的数据源，作为模型特征，通过模型计算输出新的标签。

比如我们可以通过用户浏览商品的行为数据，用户分享商品的行为数据，用户的好友互动数据等特征，通过模型预测用户购买某种商品的概率，将其创建为一个新的标签。

4. 人工标签

人工标签是指通过人工经验判断、人工规则判断，人工触达对主体进行标记的标签。

比如人工外呼后，对用户的状态进行重新标记。或者对视频素材进行标记时，由人工标注团队根据建立好的标签规则对视频内容进行打标。

值得一提的是，虽然各种图像识别、音频识别算法，自然语言处理等人工智能算法日渐强大，但当前在视频打标领域，仍然普遍依赖人工来对内容进行识别标记，以获取更准确的内容特征。

/ 按更新类型分类 /

根据标签的更新机制，我们可以大体分为静态和动态两类：

● 静态： 标签数据源一次更新，创建后基本不再变化，适用于一些属性类的数据，比如性别，籍贯这类的标签。

● 动态： 根据不同频率（天级、周级、年级）动态进行数据更新的，适用范围比较广。比如：

一些短期行为相关的标签： 活跃状态、下单状态、累计付款金额、一般要天级别进行更新，以保证数据的新鲜度。
一些基于长期行为、多源数据整合的标签： 通过模型进行预测的购买概率标签，也需要进行动态更新。

picture.image

标签可以应用在多种分析和营销场景中，在火山引擎veCDP中，我们总结业务经验，将标签融入到了以下的功能中：

● 360画像：快速获取主体信息

由于标签一般是在业务场景中抽象出来的特征，或者来自用户的一些基本属性。那么通过多维度的标签，我们可以了解一个用户的详细信息，得到用户的360度画像：包括基本属性、对应的标签和行为时间线，通过这些标签可以快速了解一个用户的特点、状态、属性，以便针对性的进行营销。

当然，不仅仅是用户，针对标签对应的主体，我们都可以通过标签了解其画像特点

● 用户分群：快速筛选/圈选主体

当主体被有效的、丰富的标签覆盖后，我们就可以通过标签的聚类、规则组合，来筛选一组符合需求的目标主体。

比如在push推送场景中，筛选最近活跃+对某个话题感兴趣的用户，进行相关内容的推送，以此提升内容匹配度——内容打开率——活动转化率。在此场景中，标签即为快速筛选主体的一个数据工具。

● 群体洞察：分析主体特征

除了筛选符合某个需求的主体群组外，标签还可以作为一种分析指标，用来洞察主体的特征情况。

比如通过某次活动获取了一批用户，为了了解这批用户是否有共同的特点，就可以通过标签进行洞察，分析用户龄、性别、地域、职业、人生阶段等标签上的分布情况，总结出本次活动的用户画像

● 建模工具：作为特征在模型等分析场景中使用

制作好的标签由于本身数据已经比较规范化，所以一般可以应用作为模型的特征或者其他的数据分析场景中。

比如常驻城市、性别这些标签，可以被广泛应用到各业务线的建模场景中，用来提升不同场景下模型效果。

picture.image

我们现在已经充分了解了标签的特点、类型和应用场景，那么 如何从0到1开始生产所需要的标签，构建一个完善、合理的标签体系，并且能够长期维护运行下去呢？

接下来我们将系统性讲解标签生产和标签体系搭建的流程，一般的标签生产流程通常包含以下几个步骤：

明确需求——确定数据来源——数据加工处理——构建标签体系——注册标签

下面我们详细分解一下每个步骤的工作内容：

/ 确定目标，明确标签需求 /

关于标签的需求，可能来自数据团队（标签生产方）自主的想法，也可能来自业务团队（标签使用方）提出的需求。

无论来自哪方的需求，在开始生产前，我们都需要首先对需求和标签的口径进行确定。

1. 讨论内容：

● 明确为什么制作标签？主要是想解决什么样的问题？
● 明确标签与主体：针对这个目标，目前需要哪些主体的哪些标签
● 确定标签更新机制：标签是静态还是动态更新？更新的频率？
● 确定标签预期使用的时间

2. 参与角色： ● 标签需求方
● 标签数据团队（生产方）

3. 产出物：

● 标签需求文档

/ 确定标签的数据源 /

需求文档完成后，标签生产团队需要根据需求，找到合适的标签数据源或者在原有的数据源上加工再进行生产。

1. 参与角色

● 标签数据团队

2. 工作内容

● 探索了解是否已经有可用的数据源？
● 如果缺少必要的数据源，是否需要新建埋点进行收集？
● 已有的数据源要不要再次清洗、加工、融合？
● 确定是否需要建立模型进行输出？
● 讨论是否需要人工标记进行数据补充？

3. 产出物

● 标签的可用数据源

/ 确定数据方案 /

某些情况下，原始的数据源可能不适合直接注册成标签（数据冗余，数据格式，数据内容问题等），需要数据团队根据平台的要求，在原有的数据源基础上进行处理，生成效率最高，最适合用于注册标签的数据源。

1.工作内容

● 制定直接使用/改造加工/建模输出/人工标记等方式的具体数据方案和详细的执行计划。

2. 参与角色 ● 标签数据团队
● 其他支持团队（数仓/算法/人工标记等）

3. 产出物 ● 标签数据方案
● 详细的执行计划

/ 构建标签体系 /

我们已经知道构建标签体系的重要性，尤其是0-1阶段，需要构建一个合理的标签体系，可以是mvp的方案，但需要打好基础，因为后续的扩展都要基于这个原始的结构进行，再次注意下满足以下关键点：

● 分类合理：根据标签的主题、目的、属性、类型等建立合理的分类，便于查找使用

●

结构化：建立标签的层级关系，便于标签维护，补充添加

● 可扩展性：基础结构保持后期扩展的可能，减少修改成本

1. 工作内容：

● 构建标签体系：与数据方、业务方、平台方进行沟通，集思广益，构建初步的标签体系

2. 参与角色：

● 需求方

● 标签数据团队

● 标签平台产品/运营

3. 产出物：

● 标签体系搭建完成

/ 注册标签 /

标签体系结构完成后，可以开始按照既定的数据方案进行标签注册，将标签注册到平台上，放置于对应的标签体系层级下。

1. 工作内容：

● 标签生产与注册

2. 参与角色：

● 标签数据团队

3. 产出物：

● 标签上线

/ 标签体系的维护与更新 /

基础的标签体系完成后，后续可以根据具体的场景和业务需求或数据迭代需求，再持续新增补充其他标签。

在原有标签体系上持续进行优化调整，比如新增分类，扩展层级，下线冗余、过期标签等，保持合理结构和易用性。

1. 工作内容：

● 标签更新迭代管理

● 标签体系优化扩展

2. 参与人：

● 需求方

● 标签数据团队

3. 产出物：

● 标签更新/下线

● 标签体系结构更新

picture.image

让我们以日常运营中的push推送场景作为一个例子，讲解一下如何创建标签到业务应用的全过程：

当前我们需要针对一次体育相关的线上活动进行推送，希望通过推送可以提升参与该活动的用户数，但同时最大化减少对该活动不感兴趣用户的干扰。

● 首先我们需要先定位一下目标用户群的特征：根据这次活动的属性，用户最好是在近7天活跃，男性用户，并且对体育类内容感兴趣，这样的人群参与的可能性会比较高。

● 这样定位后，我们需要3个标签来完成目标用户的筛选：近7天是否活跃，用户属性-性别，是否对体育内容感兴趣。

● 对于前两个标签，历史的推送经常使用已经存在于已有的标签体系中，可以直接使用。关于是否对体育内容感兴趣这个标签，需要进行新建。

● 在整理好标签需求后，运营团队作为需求方向数据团队提交了本次需求，数据团队制定了相关的数据方案，希望通过用户已有内容浏览行为数据进行生产，在算法团队的支持下，通过模型输出了是否对体育内容感兴趣标签，并注册在原有的标签体系-兴趣偏好-体育内容下，保证后续可以继续维护，和扩展兴趣偏好其他类别。

● 运营团队使用3个标签进行圈选，筛选出一定数量的用户作为目标受众完成了本次推送。

● 通过实验数据验证了本次推送效果较好，提升了活动参与人数，并且未对整体用户造成干扰。后续相关活动可以继续沿用该方法和相同标签进行，扩大标签利用率和价值。

产品介绍

火山引擎客户数据平台VeCDP

面向业务增长的客户全域数据中台，帮助企业打破数据孤岛，建立统一的人、物档案，以数据驱动全链路营销和深度运营，实现企业数字化转型和增长。后台回复数字“11”了解产品。

picture.image

/ 标签是什么 /

/ 标签体系是什么 /

/ 按标签性质分类 /

/ 按创建方式分类 /

/ 按标签数据源分类 /

/ 按更新类型分类 /

/ 确定目标， 明确标签需求 /

/ 确定标签的数据源 /

/ 确定数据方案 /

/ 构建标签体系 /

我们已经知道构建标签体系的重要性，尤其是0-1阶段，需要构建一个合理的标签体系，可以是mvp的方案，但需要打好基础，因为后续的扩展都要基于这个原始的结构进行，再次注意下满足以下关键点：

● 分类合理： 根据标签的主题、目的、属性、类型等建立合理的分类，便于查找使用

结构化： 建立标签的层级关系，便于标签维护，补充添加

● 可扩展性： 基础结构保持后期扩展的可能，减少修改成本

/ 注册标签 /

/ 标签体系的维护与 更新 /

/ 确定目标，明确标签需求 /

● 分类合理：根据标签的主题、目的、属性、类型等建立合理的分类，便于查找使用

结构化：建立标签的层级关系，便于标签维护，补充添加

● 可扩展性：基础结构保持后期扩展的可能，减少修改成本

/ 标签体系的维护与更新 /