解读流媒体个性化技术：分级体系与短视频演化之旅 - 文章 - 开发者社区

结合团队在流媒体个性化技术上的认知，对流媒体个性化技术进行了维度拆解与分级定义，并概要地讲述了在抖音短视频上的演进历程。欢迎大家阅读了解～技术细节可参考往期的综述：https://mp.weixin.qq.com/s/88Z85YKKKCUW-y2pp9XegA

背景

作为主流的短视频应用，抖音在音视频相关工作上，开创性拓展了个性化x流媒体（亦可称之为个性化x视频，或个性化x播放）的全新、学科交叉的技术体系，即，在行业传统上称之为流媒体技术的工作方向上，大量运用了发端于推荐、广告、用户增长等领域的个性化技术并加以深度改造、适配，不仅在超复杂的应用环境中，仍能提升用户体验 至最佳水准，带来业务收益的同时有效控制了成本，近3年成本年均优化亦达数十亿 。

其中，个性化叙事视角与传统音视频技术全然不同，不同业务或其他公司或许在部分相关工作事项上有所建树，但仍然缺乏对问题和解法的体系化认知，服务水准参差不齐。因此，参考许多其他行业常用的分级方式，我们对相关工作的个性化维度与等级进行了梳理与总结，希望能够帮助音视频领域的工作同学了解前沿水平，也希望引导未来整个音视频领域的相关工作方向。

流媒体技术 - 传统意义上指的是通过网络按序传输多媒体数据（音频、视频、图像等），让用户可以在下载数据的同时实时播放的一种技术和服务方式。针对抖音的主要视频场景，为了在用户观看当前或切换至下一条视频时持续保持流畅，需要预先下载、解码及渲染多媒体数据，以避免播放出现中断或卡顿。此外，系统还通过自适应码率（ABR，Adaptive Bitrate）或多分辨率流技术，根据当前网络环境动态调整播放质量与带宽，在高流畅度、高画质、低带宽成本三大需求之间寻求最佳平衡。

（在个性化 x 流媒体技术语境下，所需平衡的目标和因素，以及相应干预能力均需大幅拓展并重新定义，详见下文）

个性化能力

与传统根据功能列表来确定A公司较B公司技术更先进的比较方式而言，我们认为技术的个性化程度要远为重要，而与传统的按照不同环节划分工作区域相比，依据优化目标划分工作维度更能凸显技术本质，这一理念已经在抖音系的音视频工作中充分实践，并在应用获取市场头部地位的过程中起到了关键作用。

维度拆解

在我们看来，由于工作方向是构建个性化能力，为每个用户打造极致最优的流媒体传输与播放方案，因此应当比照优化问题，从动作空间、状态空间、策略算法等维度进行理解与迭代，同时在对优化目标的理解与度量本身的精度提升也至关重要。

动作空间 - 系统中的全部可能的干预点集合，通过扩展动作空间，使得我们可以控制更多的可调变量或干预点，进一步创造出过去未被发现的干预点。如，视频档位选择、视频缓存大小决策、视频预加载数量等。

➤

动作空间的扩展，是复杂业务中获得收益的最重要来源 。

状态空间 - 指系统全部可能的状态集合，这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间。通过创造新的特征、信号，丰富状态空间，可不断扩展个性化能力的上限。如，基础的用户信息、机型信息；用户实时手势、姿态、行为序列；视频的基础文件信息、内容理解特征等。
策略算法 - 当状态空间较小时，基础的个性化能力可仅为简单或复杂的规则；随着状态空间的增加，使用适当的数学模型会有更好的效果；再随着状态空间的更进一步增加，统计机器学习或深度学习模型能够逐步发挥其价值，更为数据驱动式地为用户量身定制流媒体服务。而当动作空间不断扩展时，需要全面统筹不同的干预动作，进行多干预点联合建模优化或者面向最终目标端到端统一建模。
规模难度 - 优化的难度和收益均随着业务或问题的规模量级提升而提升，为可实施个性化技术的基础。且高精度下优化的理解与度量本身即具备极高的技术门槛。

➤

面向百万用户群体下，不值得去做的事情，在面向亿级群体时会变得十分有意义；而在面向亿级用户群体时，对于百万用户群体来说的微小问题，也会有很大的负向影响。

➤

抖音目前包含短视频、中长视频、版权视频，覆盖全类型视频内容，包含各年龄段、各知识层级水平的全类型用户，其视频内容与用户的双重多样性，带来远较一般平台更高的优化复杂度。

分级定义

在我们看来，应当将流媒体的个性化等级分为 L0 到 L5共 6 个级别。在对每一级别进行定义的同时，分不同维度进一步拆解定义，此种分级方式能够帮助衡量技术水平，同时指明发展方向。

级别

定义

分维度定义

| |

动作空间

状态空间

策略算法

规模难度

| |

面向功能需求的流媒体系统开发。

· 解决可用性为主，流程跑通、功能可用。 · 对视频播放作通用处理或有限数量的技术选择。 · 功能需求驱动、Bug驱动。

| |

基于基础特征的人工规则调整。

| · 建立若干在调干预点，干预点自然、显著且必要。 · 基于经验，进行人工挖掘。 | · 用户信息、机型信息等可以直接收集的基础特征，作为有限离线值域进行使用。 | · 基于单一状态的有限离散值域，制定简单的规则。 · 系统内各模块独立优化，不考虑状态空间联合优化。 · 主要以性能指标的优化为策略目标。 | · 视频全类型覆盖>60%，用户全类型覆盖>60%； · 业务优化精度百分之一。 | |

对齐人群、设备或视频类别等维度进行策略优化。

· 建立十级别的在调干预点，基于业务设计非业界通用的干预点。 · 基于经验，借助基础分析工具，进行人工挖掘。

· 利用较完备的性能特征（百级）和部分业务特征，且能够基于基础特征进行交叉等再加工。 · 支持直接使用连续型值域的原始信号。

· 系统内部分模块联合优化、多状态组合使用进行策略制定。 · 使用性能和成本目标的影响进行优劣判断。

· 视频全类型覆盖>80%，用户全类型覆盖>80%。 · 业务优化精度千分之一。

| |

广泛使用各领域的个性化技术实践，在 User、Item、Context 粒度上进行策略调控，形成领域内的个性化技术范式。

· 建立百级别的在调干预点，设计各模块间联动的干预点；同一干预点进行深入细化，如扩展值域。 · 建立方法论，基于逻辑推演，借助高阶数据分析工具，进行人工挖掘。

· 能够结合业务场景定制化特征，能够利用完备的业务特征与性能特征（千级），且能够对特征进行深度加工和有效性检验。 · 支持所有常见特征类型

· 面向业务建模为主的策略算法，包括留存、时长、营收指标、成本指标。 · 广泛使用端到端模型，从专家策略驱动为主迁移至数据算法驱动为主。

· 视频全类型覆盖100%，用户全类型覆盖100%； · 业务优化精度万分之一。

| |

对齐最先进的个性化技术进行策略调控。

· 建立千级别的在调干预点，设计系统内外协同的干预点。 · 支持半自动化挖掘新干预点，支持自动化评估。

· 支持运用高阶信号，如长序列、拓扑图、多模态等，能够提炼深层特征。 · 支持从业务影响度的视角端到端进行特征建设，能够通过数据挖掘技术驱动特征构建。

· 系统内各模块全链路融合优化；系统外关联模块联合优化。 · 策略全以业务目标建模，统筹单一场景下的多业务协同达到全局最优。 · 面对业务目标具备自适应性，策略可快速适应业务目标的战略调整。 ·广泛使用最先进的个性化技术。

· 视频全类型覆盖100%，用户全类型覆盖100%； · 业务优化精度十万分之一。

| |

全系统、全链路精准可感知、精确可计算，形成系统级的跨领域个性化技术范式。

· 建立万级别的在调干预点，设计全系统、全链路协同的干预点。 · 支持全系统、全链路、全自动化的自主挖掘，取得代码上的最优实现。

· 多场景多业务联合信号。 · 自动化拓展状态空间，形成挖掘、生产、检验判断的整体技术链路。

· 考虑多场景、多业务，全系统、全链路的端到端统筹优化，在策略统筹、模型精度、计算复杂度等方面均达到理论最优。

· 视频全类型覆盖100%，用户全类型覆盖100%； · 业务优化精度百万分之一。

名词解释

针对分级定义中包含的各类专有名词进行解释。

解释（包括说明、关键词、举例）

| |

个性化

在每个用户处于不同状态时，观看每个视频过程中，动态决策最优的流媒体策略

| |

最先进的个性化技术

在推荐、搜索、广告、用户增长等所有从事个性化的技术领域内，新近产出的大规模落地取得效果突破的技术，包括深度学习模型、LLM、因果推断、最优化建模方法等等

| |

全链路

| 指从视频包括拍摄制作上传的生产端，到服务端视频增强、转码，网络部署调度，客户端下载播放的消费端的整个过程 | |

全系统

App 内的所有功能和业务、系统和框架

| |

系统级

从整体视角来分析和解决问题，对系统内各个模块统筹协调，避免各模块各自为政、互相冲突

| |

User

指产品的用户，主要包含拍摄制作上传作品的用户和观看消费作品的用户

| |

Item

指用户可以交互的对象，如视频、图片、文字、直播流、商品等

| |

Context

上下文信息，这里指用户的历史消费行为数据和当前设备的消费状态等，如用户历史的点赞/转发等交互行为、历史卡顿时长/首帧时长等性能特征

| |

视频全类型

所在市场中，所有视频平台内细分内容类型的全集

| |

用户全类型

所在市场中，所有视频平台内细分用户类型的全集

| |

基础特征

显而易见或广泛使用的特征，比如设备的类型、品牌、型号、硬件性能

| |

自动化

指一种方法或运行模式对人工干预的需求度；全自动化即表示方法的执行完全依赖预先设定的程序与流畅，不需要人工干预；半自动化表示方法的执行主要依赖预先设定的程序，但是过程中需要一定的人工干预

| |

干预点

可以对不同用户在不同情景下，可调节的参数项及其取值，比如，预加载的视频个数、每个视频的缓存大小、分辨率选择、线程的启动时机等等

| |

动作空间

系统中的全部可能的干预点集合，通过扩展动作空间，使得我们可以控制更多的可调变量或干预点，进一步创造出过去未被发现的干预点

| |

状态空间

一般指系统全部可能的状态集合，这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间

| |

策略

为了达成优化目标，决策如何调整系统中干预点的方法

| |

多场景

指 App 中提供不同功能的业务场景，如信息流页面、投稿页面、搜索页面、商城页面等

| |

多业务

指 App 中提供不同价值的业务划分，如广告业务、搜索业务、直播业务、电商业务等

| |

多系统

服务于流媒体的技术系统，以及与相关联业务的技术系统。如，文件存储系统、视频转码系统、流媒体网络系统；推荐系统、广告系统、电商系统

| |

端到端

“全链路”的另一种表达，指从视频包括拍摄制作上传的生产端，到服务端视频增强、转码，网络部署调度，客户端下载播放的消费端的整个过程

| |

高阶数据分析工具

具备通过复杂的分析手段、机器学习、因果推断、挖掘系统和可视化技术，在简单数据分析之外获得新洞察、发现隐藏模式的数据分析工具

| |

高阶信号

需要通过复杂手段或者模型而制得的信号特征，且模型需要为这些信号做定制化适配，如实时化、长序列、多模态、拓扑网络等

| |

数据驱动

相对于专家策略驱动来说的，决策时无需过多的人工经验总结，利用数据进行自动决策。例如，使用机器学习技术进行实时决策，替代人工分析数据分布制定不同情景下的具体策略

| |

联合优化

考虑多个目标之间的相互关系，通过综合考虑各个目标的取值来找到一个全局/近似全局最优解

| |

融合优化

比联合优化更进一步，统一系统内的多个模块及节点进行建模优化

| |

业务目标

指期望对用户行为产生的影响，可能包括产品的用户活跃度、观看时长等用户规模相关目标，广告、直播打赏、电商收入等营收相关目标，更宽泛地，还可以包含成本占收比、用户口碑等

| |

性能指标

衡量和评估系统效果和效率的指标。如发布时长、卡顿时长、首帧时长、RTT（数据流往返的网络耗时）等

| |

业务指标

每个业务所具体关注、可精确度量的北极星指标。如用户活跃天数、用户活跃时长、CPM、GMV 等

| |

业务优化精度

极致化提升业务指标，不止是技术上追求极致，也是精进对指标的度量能力，如测量出提升核心业务指标 0.001%，需要满足统计学上的“显著性”要求

抖音短视频上的演进

自 2016 年启动至 2025 年为止，抖音经历了一段高速发展的进程，并在此期间逐步构建起日渐成熟的个性化流媒体技术能力。纵观这一发展阶段，通过不同部门协作，在诸多关键优化项上持续突破，代表性优化列举如下：

分级

时间周期

阶段描述

代表性优化项

| |

2016 年

| 业务功能实现，流媒体链路各环节性能符合基础需求

抖音：实现基本功能 |

| |

2016 年～ 2018 年

| 在流媒体链路的服务端、客户端等主要环节支持利用用户（设备）、视频的基础信息进行策略干预

抖音：服务端提供多码率转码能力，客户端支持网速预测、预加载、档位选择等 |

利用基础信息（如，观看数），使用规则化方法进行转码资源使用
利用基础信息（如，设备分、预测网速）进行预加载与播放的过程控制

| | L2 |

2019 年～ 2021 年

| 在流媒体端到端链路上的不同环节上，覆盖式建立策略干预点，利用主要用户、视频特征，能够在局部利用复杂算法，并对部分模块能进行联合优化

抖音：主要的端到端环节完成策略化覆盖，能够综合运用用户、视频等特征，使用了价值预测模型，预加载算法等 |

基于CAE的视频转码能力
基于ROI 区域的编码能力
基于视频价值模型预测的转码资源使用策略
CDN冷热文件调度
CDN节点调度（质量 & 成本）
多特征拟合曲线的档位选择
预加载算法化

| |

2022 年～ 2024 年

| 支持大量干预点，支持各模块联动，广泛使用画像等经过深度加工的特征，使用复杂算法、模型，并同时平衡各类业务指标如留存类、营收类与成本类等

抖音：增加了大量可调干预点，同时广泛运用了音视频、网络、设备特征，推荐、商业化、投稿、评论等业务特征，对主要性能维度建设敏感画像，在端内不同组件间、端云之间统筹联动，并与端智能紧密结合，由少数专家驱动过渡至数据、算法驱动的研发模式 |

视频粒度的档位组合能力（UIAE）
前处理、转码、重转码等多模块联合的资源分配
为不同价值与诉求的视频，最优化分配异构编码硬件资源
基于实时视频价值预测的冷热 CDN 文件调度
基于网络状态、设备性能、用户行为、用户偏好、商业价值的自适应档位选择
基于视频内容、动态性能分的端上超分、锐化等增强，并与档位选择能力进行联合决策
基于网络状态、用户行为/偏好、商业价值、时间服务、成本预测的视频缓存决策
基于剩余时间预测模型的 LoadMore 技术
流媒体系统内的端云策略联合：档位组合、编码策略、档位选择、解码策略的个性化联合决策
广泛引入因果推断技术进行决策

| |

2025 年～ 2028 年

| 迈向未来，广泛对齐最先进的个性化技术

抖音：技术生态持续完善中 |

建设中，举例：

B级以上参数的深度模型预测，支持长序列特征与生成式模型
使用多模态模型对视频进行画质向理解，以支持个性化策略
档位组合实现编码、选档、网络调度的端云结合
干预点组合探索，半自动化挖掘新干预点
用户长期行为建模，进行播放优化
对业务目标与主观体验建模，如画质感受、音质感受、流畅度感受
多业务联合（广告、电商、直播、点播）优化建模
下载与播放决策面向业务目标直接建模
基于生成式技术的端到端编解码器、前后处理能力