干货｜数字平台的治理：以A/B测试平台在字节跳动的实践为例 - 文章 - 开发者社区

picture.image

自2013年至2023年6月， 字节跳动实验平台Libra （对外产品名为火山引擎A/B测试DataTester）已累计执行240万次A/B测试，为公司内500多个业务提供A/B测试评估和智能优化服务。

Libra平台如何一步步成长到足以支撑全公司各项业务完成在线实验、Libra团队是如何管控平台上的各类用户群体的实验行为， 本文将从激励与控制两个维度探讨字节跳动Libra对平台用户的治理方法。

picture.image

文| 戴蕙阳李惠王珂李纪珍发于《清华管理评论》2023年10月刊

2022年4月，全球知名咨询与研究机构弗雷斯特（Forrester）发布 《火山引擎A/B测试总体经济影响白皮书》， 在研究字节跳动旗下火山引擎的客户经营生产情况后发现，企业采用A/B测试后综合财务指标方面的投资回报率可达到126%，可见A/B测试对企业的赋能作用显著。

在开放火山引擎A/B测试工具给更多外部企业之前，字节内部使用A/B测试已经有近十年的时间，“抖音”“西瓜视频”等产品名称的确定都离不开A/B测试的结果， 正如字节内部流行的一句话所言：“A/B测试是一种信仰。”

为了打造成熟的A/B测试产品，字节跳动成立了专门的数字实验平台Libra提供企业内部的A/B测试评估和智能优化服务，走出了一条独特的平台发展之路。

平台治理是平台创造价值的关键环节，字节跳动A/B测试产品的成功与Libra平台的有效治理息息相关。 本文围绕Libra实验平台的例子具体解读数字平台的治理问题。

picture.image

A/B测试是一种在线实验，指的是将线上流量随机分给原策略A和新策略B，在排除干扰的情况下，结合相关统计方法对策略B进行效果评估。 换句话说，A/B测试可以比较同一目标的A、B两种方案哪种更加有效，是一种能够验证因果关系的随机对照实验。

因为结合了数字化技术，A/B测试相较于传统的“随机双盲试验”， 具有低成本、大流量、传播快等特点。 国外大型互联网公司从21世纪初开始陆续采用A/B测试，例如谷歌（Google）、微软（Microsoft）、脸书（Facebook）、领英（LinkedIn）、亚马逊（Amazon）等，这些公司每年都会针对数百万用户开展超过1万次的在线对照实验。

借鉴国外开展A/B测试的经验，2012年字节跳动在成立之初就引入这种实验方法进行算法迭代。

2014年2月，A/B测试成为公司内的体系化工具，形态上类似于小程序，员工改变配置即可进行实验。 2016年，字节将A/B测试相关的工具进行整合并创立名为Libra的平台，取意“天秤座”， 用来比喻A、B两种策略在天平两端具有同等分量，充分体现了企业想要传达的“客观”理念。

起初，Libra主要供今日头条使用，支持推荐、广告、推送等业务的迭代。从2015年到2018年，Libra不断拓展服务边界，公司的其他头条系产品如西瓜视频等也接入Libra平台开展A/B测试。

2018年，在综合考量了全公司各项业务产品对A/B测试的需求后，字节跳动加大了对A/B测试产品化的投入，Libra团队成员也开始深入对接字节内的各个业务部门，平台影响力不断扩大。 抖音等产品的快速发展使Libra真正成为字节举足轻重的数字平台， 甚至“抖音”这一名称也是A/B测试得到的。

公司内部成员为“抖音”原型产品起成不同的名字、使用不同的Logo在应用商店投放，综合考量用户关心度、用户吸引力、下载转化率等指标，“抖音”排名第二，因为更符合产品形态而被采纳。

近年来，字节内部使用A/B测试的频次呈指数级增长。截至2023年6月， Libra已经为公司内500多个业务提供A/B测试评估和智能优化服务， 平台累计做实验超240万次，每日新增实验数量可超过4000次。

作为国内最大的以平台形式对A/B测试产品进行支持的数字实验平台，Libra整合了字节中与A/B测试相关的人才与数据资源，汇集了大量测试知识经验，为各业务部门提供数据支持服务， 从而帮助字节实现了全员参与低成本试错的目标， 为企业的快速迭代和创新发展提供了坚实的保障。

在Libra实验平台的支持下，字节A/B测试系列产品逐渐成熟，其功能与经验也成功输出到To B业务中，孵化出火山引擎A/B测试产品，赋能更多公司实现变革。

picture.image

建立数字平台不仅需要在硬件方面具备基础的数字技术与底层架构，同时需要一套完善的平台治理体系进行用户管理。Libra作为字节跳动内部的数字实验平台，需要与企业的其他业务部门保持紧密的合作关系，充分发挥平台的支撑作用。 为了确保平台发挥对业务创新与试错的促进作用，Libra团队逐渐探索出了一套多元化的数字实验平台治理手段。

● “重激励-轻控制”的企业内数字平台治理

平台是一种介于科层制和市场之间的组织形态，其所有者和使用者之间存在着弱契约化的协同关系——平台上的用户对自身的资源具有所有权，它的行为和目标并不需要完全服从于平台方，和平台方属于合作的关系。

正因为平台是既非科层制也非自由市场的中间特殊形态，平台所有者需要提供特定的治理手段协调自身与用户、用户与用户之间的共同活动，从而确保整个平台能够创造出最大化的协同价值。 常见的平台包括交易平台、知识共享平台、社交平台等。

组织治理通常被分为激励和控制两个方面。 在平台组织中，激励指的是采取措施鼓励更多使用者参与到平台上正确地运用平台资源，控制指的是使用规则限制平台使用者可能损害合作关系或者平台利益的行为。

常见的激励措施包括为加入平台的用户提供现金奖励、热销产品排行榜等，常见的控制措施包括在用户加入平台之前开展背景调查、设置平台准入端口费用等。

picture.image

Libra作为企业内的数字平台，与一般意义的平台组织有所差异。

平台组织多指独立的平台型企业，其用户多是其他独立公司或个体，平台与用户之间是商业合作的关系。Libra虽然同样提供数据支持、信息传递等平台性服务，但是其用户和Libra同属于一家企业，有着统一的公司整体目标。

因此在激励上，Libra需要构建共创协同的平台文化氛围，鼓励所有员工积极加入平台参与实验，实现提高全公司决策科学性的平台目标；在控制上，Libra需要采取措施限定和指导用户行为的方向，避免不同用户间产生利益冲突，发挥出用户间“1+1>2”的协同作用。

本文提出Libra的激励治理包括三个方面，分别为平台功能完善、使用信息共享、外部关系打通，控制治理包括两个方面，行为控制和结果控制。 因为Libra与其内部用户同属于一个企业，在企业内统一的规章制度管控下Libra无需避免用户的违规操作、处理所有权界定或收益分割等纠纷问题，而是重点鼓励更多部门加入平台开展实验，所以Libra数字实验平台整体呈现出“重激励-轻控制”的治理模式（如上图1）。激励与控制两个维度各有侧重又相辅相成，提高企业的运营效率。

接下来本文对Libra平台治理的激励与控制措施进行具体介绍。

picture.image

/ 激励一：平台功能完善 /

平台功能完善强调的是不断优化与更新平台的功能，提高数字化工具的服务质量，从而帮助用户提高效率、创造收益。因为提供服务是平台最基础的属性， 所以平台功能完善是吸引用户加入平台最重要的激励方式。

Libra的主要产品是A/B测试。如果业务独立开展A/B测试，员工需要学习统计模型、计算指标、手动配置实验，极大地增加了单次实验的成本。 Libra搭建了实验基础架构，绘制出可视化界面，实验者只需要在平台上填写个性化信息即可轻松操作。

picture.image

在Libra上开展A/B测试的流程如图2所示。

在平台上创建实验之前， 业务方需要明确此次实验希望解决的问题， 设计出实验可供选择的两到多种策略（策略A、策略B……），明确在实验过程中需要观测的指标有哪些、预期这些指标在实验中有怎样的变化。

然后， 研发人员和产品经理要在Libra实验平台上按照标准的流程填写实验的基本信息， 例如实验流量大小、实验时长、实验对象过滤条件等，配置对照组（策略A）和实验组（策略B）参数，开启同伴评审保证实验的正确配置，随后开启实验。

在实验结束后，数据分析师需要计算与分析各指标变化情况，评估新策略是否达到了预期目标、是否需要采取进一步实验措施，如延长实验时长等，并撰写分析报告以供后续使用。 如果实验结果满足预期，实验团队会开启上线评审，由更多专业人士决定业务部门是否可以采纳实验结果。

此外，业务研发人员在实验结束后也可以 进一步开启反转实验、父子实验等，长期监测和评估新策略的效果。 平台功能也不是一成不变的，组织需要顺应数字技术的发展和市场需求的变化，快速更新平台功能以提供更完善的服务。

正如Libra研发工程师所阐述的：“Libra推出新功能的迭代速度非常快，每个月基本上都会有较大变化。这种功能迭代的来源有两个，其中以用户业务的需求为主，平台自我功能驱动为辅。”

在内部保障机制方面， Libra团队坚持每周一次个人书面汇报、每双周一次团队例行会议、每双月制定一版目标规划，打通团队成员之间的沟通渠道，保证所有人信息一致、目标统一。

在获取外部信息方面， Libra产品经理、研发人员、数据科学人员等多个角色成员均需要与用户直接沟通，定期参与业务方会议，切实了解业务部门开展实验时遇到的难题、对数据服务的新需求等等。

自动调参、配置发布、因果推断是Libra近几年推出的新功能。 自动调参是将实验和优化算法结合的产品，主要针对参数较多的探索性实验，通过为用户提供完整的分析套件，帮助用户以更低的成本探索实验配置的最优参数。

配置发布是Libra打造的服务端配置管理和灰度发布平台，支持用户集中管理不同业务线、不同服务的配置参数和开关，将A/B 测试结果参数一键上线。因果推断是Libra团队近两年新推出的功能合集，提供了一系列标准范式下的评估工具， 以帮助用户在各种复杂业务场景下开展准实验（quasi-experiment）研究。

/ 激励二：使用经验共享 /

使用经验共享指的是平台为用户提供平台的相关信息，从而帮助用户便捷地使用平台资源。如果平台不能够提供足够的信息，平台的使用门槛会被提高，降低使用者加入平台的意愿。

因此，信息的有效共享也是平台治理的重要激励方式。

为了鼓励更多业务部门加入平台开展实验，Libra团队主要采取以下几种措施提供平台的使用经验：

● 第一，编写Libra产品的在线使用手册， 其中包括A/B测试背后的统计学原理知识介绍、产品操作流程录像、往期培训录像、优秀案例等，为新用户提供自行了解平台产品功能的渠道，确保员工在浏览使用手册后掌握实施A/B测试的基本操作；

● 第二，定期针对不同的人群， 例如技术人员、特定业务人员、新用户等， 提供专场培训活动， 在活动中邀请过往优秀实践者进行经验分享，使不同角色的员工可以更精准地了解平台不同功能的使用方法和效果；

● 第三，在Libra主页设置“反馈与咨询”版块， 自动回复常见的共性问题，安排值班人员解答“人工反馈”问题，以天为单位确保每一个使用者问题都能被快速回复；

● 第四，按功能开设多个相关用户群， 在群中介绍产品的最新功能、通知平台事故、收集需求建议等。这些措施保障了每一位用户都能够快速掌握平台产品信息，降低了Libra的使用门槛，营造出“人人都可实验、人人都能实验”的氛围，进而激励字节所有员工充分利用平台资源。

/ 激励三：外部关系打通 /

外部关系指的是主体平台与其他平台之间的关系。 因为不同平台可以提供差异化的服务，用户可以选择同时加入多个平台以谋取更大的利益。

如果平台之间是互相竞争的关系，用户的多归属行为（multihoming）可能会降低用户对主体平台的忠诚度，从而使主体平台利益受损，因此很多平台会禁止用户的多归属行为。

然而在同一家企业中，不同数据平台通过提供异质性的服务呈现互补关系，平台之间的数据打通有助于推动数据流动，方便业务方管理和整合数据。 因此，与其他平台实现功能互通有助于提高员工对主体平台的使用意愿。

为便捷用户使用字节其他数据平台的指标， Libra团队将打通公司已有的数据开发与分析平台作为Libra建设的关键目标之一， 安排专门的团队成员持续跟进完善与其他数据平台内部指标管理的互通工作，优化Libra的数据建设和实验分析能力。

以Libra中的用户行为指标为例， TEA（对外产品名为火山引擎增长分析平台DataFinder）是字节跳动帮助业务开展行为分析的专业数据分析平台， Libra平台选择内嵌了TEA的部分分析能力，使得Libra用户在使用过程中只需要在行为指标配置页面上点击选择就可以生成一个用于A/B测试的指标并保存在Libra报告页面中，随后运用到该用户所在产品线的全部实验中。

picture.image

/ 控制一：行为控制 /

行为控制指的是确保个体采取的行动对组织有益、防止个体执行对组织造成损害的行为（“行为控制”为特定科研术语，指确保个体采取的行为对组织有益、防止个体执行对组织造成损害的行为）。

行为控制的前提条件是组织清楚了解什么样的行为是组织希望看到的。 如果一些工作涉及复杂且具有高度不确定性的任务，例如研发或高层决策的工作，期望的行为就难以被界定，组织就很难开展行为控制措施。

在数字平台中，行为控制更加容易执行，因为平台的用户行为流程是由平台团队自行设计的，并且用户行为通常可以在平台后台监控。 在行为控制中，平台不需要考虑行为所产生的结果是否是符合预期的，只需要考虑用户活动的过程是否合 规。

在实际治理工作中，行为控制和结果控制往往是结合开展的，以产生更好的控制效果。 在A/B测试的流程中，Libra团队共设计了三轮评审活动，其中前两轮评审活动都是典型的行为控制措施。

第一轮评审安排在设计实验环节， 评审在实验小组的内部开展，审核实验方案是否合理，例如需要观测的指标是否准确、指标的预期变化方向是否正确等。

第二轮评审安排在创建实验阶段、开启实验之前， 被称为同伴评审，审核人员包括用户和Libra双方负责人员，检查实验配置中是否有书写错误、命名不规范、配置冲突等情况，对代码质量、指标预期波动等进行核查，防止这些错误造成平的线上事故。第二轮评审也是保证实验顺利开启的重要前提。

除评审之外，数字平台通常还有一些数据隐私方面的行为控制措施，因为数据隐私和合规是保障数字平台安全的核心工作。 字节通过制定专门的数据及信息安全准则，设置公司的数据安全红线，规范所有数据平台中的客户数据使用行为，以保障公司的数据安全。

/ 控制二：结果控制 /

结果控制涉及到对个体活动产生的结果进行奖励或者惩罚，例如企业为员工发放优秀绩效奖金等。结果控制虽然不限制个体的行为方式，但往往也会影响到个人的行为，因为采取相应的行为才能够得到预期的结果。

结果控制的前提是定义预期结果， 即在数字平台中，结果控制需要首先考虑平台的目标是什么， 从而对用户在平台上活动的结果进行界定，判断用户行为的结果是否与平台目标一致。

当用户的活动结果与平台的目标一致时，鼓励并肯定用户活动，当活动结果与平台目标不一致时，禁止或者限制这种行为。

Libra的目标是为字节跳动全业务迭代提供A/B测试评估和智能优化服务，帮助业务科学有效地衡量收益。 从开展实验的结果角度来看， 业务方在平台上的活动一方面需要对业务产生真正的效益，即为业务创造收益或者提高业务运行效率，另一方面不能损害字节的整体收益， 即对其他业务不产生负面影响。 Libra在这两方面分别采取了结果控制。

在帮助业务迭代方面， Libra团队设置了流程中的第三轮评审——上线评审。 当实验出现满足预期的结果时，实验团队可以在系统中申请上线，随后由更多专业人员对实验结果进行评估，判断该实验结果对业务是否有真正的价值。

只有当实验涉及的业务变动被多方认可是能够帮助提升业务和公司运行效果的，该变动才会被允许正式上线， 正如Libra产品经理对平台功能的描述：“平台建立的初衷并不是希望业务部门只依赖数据，而是借助工具来升级团队的经验，通过A/B实验加深对业务过程的理解、找到本质原因，进而作出更正确的决策。”

在保障公司整体利益方面，Libra团队对平台默认使用的指标统计口径、指标类型等相关内容进行调整，以确保所有实验是有效的且对公司有利的。

例如，鉴于同一个产品的不同业务团队之间存在相关性，在实验的过程中，数据报告页中不仅展示该用户自行选择观测的指标，还展示了字节其他重要业务团队的指标。 实验者不仅需要考虑一次实验中的功能变动对自身业务的影响，也需要确保自身业务绩效的提升不损害公司其他业务部门的利益。

再如，随着实验经验的积累，Libra团队发现“多天累计指标”相对于“天级平均指标”具有更加科学的统计意义，更能够避免实验产生假性显著结果。

因此，Libra团队在实验结论中默认使用从实验第一天开始累计的数据来进行评估， 以规范业务部门实验评估时采用的数据口径，避免出现投机取巧的行为，保障实验结果的科学准确性。

以上，本文对数字平台的治理问题进行了梳理，分析了字节跳动Libra平台激励与控制两方面的治理方法。良好的治理体系有助于企业更合理地设计平台功能、利用平台组织创造更大的商业价值。 平台治理、平台设计与平台价值创造之间的相互影响关系值得学者和管理者们未来进一步探索。

产品介绍

火山引擎 A/B 测试，限时免费，立即申请！

A/B 测试，摆脱猜测，用科学的实验衡量决策收益，打造更好的产品，让业务的每一步都通往增长。火山引擎首度发布增长助推「火种计划」，火山引擎 A/B 测试作为「火种计划」产品之一，将为您免费提供 2 亿事件量和 5 万 MAU，以及高达 12 个月的使用权。后台回复数字“8”了解产品

--推荐阅读--

picture.image