结合团队在流媒体个性化技术上的认知,对流媒体个性化技术进行了维度拆解与分级定义,并概要地讲述了在抖音短视频上的演进历程。欢迎大家阅读了解~技术细节可参考往期的综述:https://mp.weixin.qq.com/s/88Z85YKKKCUW-y2pp9XegA
背景
作为主流的短视频应用,抖音在音视频相关工作上,开创性拓展了个性化x流媒体(亦可称之为个性化x视频,或个性化x播放)的全新、学科交叉的技术体系,即,在行业传统上称之为流媒体技术的工作方向上,大量运用了发端于推荐、广告、用户增长等领域的个性化技术并加以深度改造、适配,不仅在超复杂的应用环境中,仍能提升用户体验 至最佳水准,带来业务收益的同时有效控制了成本,近3年成本年均优化亦达数十亿 。
其中,个性化叙事视角与传统音视频技术全然不同,不同业务或其他公司或许在部分相关工作事项上有所建树,但仍然缺乏对问题和解法的体系化认知,服务水准参差不齐。因此,参考许多其他行业常用的分级方式,我们对相关工作的个性化维度与等级进行了梳理与总结,希望能够帮助音视频领域的工作同学了解前沿水平,也希望引导未来整个音视频领域的相关工作方向。
流媒体技术 - 传统意义上指的是通过网络按序传输多媒体数据(音频、视频、图像等),让用户可以在下载数据的同时实时播放的一种技术和服务方式。针对抖音的主要视频场景,为了在用户观看当前或切换至下一条视频时持续保持流畅,需要预先下载、解码及渲染多媒体数据,以避免播放出现中断或卡顿。此外,系统还通过自适应码率(ABR,Adaptive Bitrate)或多分辨率流技术,根据当前网络环境动态调整播放质量与带宽,在高流畅度、高画质、低带宽成本三大需求之间寻求最佳平衡。
(在个性化 x 流媒体技术语境下,所需平衡的目标和因素,以及相应干预能力均需大幅拓展并重新定义,详见下文)
个性化能力
与传统根据功能列表来确定A公司较B公司技术更先进的比较方式而言,我们认为技术的个性化程度要远为重要,而与传统的按照不同环节划分工作区域相比,依据优化目标划分工作维度更能凸显技术本质,这一理念已经在抖音系的音视频工作中充分实践,并在应用获取市场头部地位的过程中起到了关键作用。
维度拆解
在我们看来,由于工作方向是构建个性化能力,为每个用户打造极致最优的流媒体传输与播放方案,因此应当比照优化问题,从动作空间、状态空间、策略算法等维度进行理解与迭代,同时在对优化目标的理解与度量本身的精度提升也至关重要。
- 动作空间 - 系统中的全部可能的干预点集合,通过扩展动作空间,使得我们可以控制更多的可调变量或干预点,进一步创造出过去未被发现的干预点。如,视频档位选择、视频缓存大小决策、视频预加载数量等。
➤
动作空间的扩展,是复杂业务中获得收益的最重要来源 。
- 状态空间 - 指系统全部可能的状态集合,这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间。通过创造新的特征、信号,丰富状态空间,可不断扩展个性化能力的上限。如,基础的用户信息、机型信息;用户实时手势、姿态、行为序列;视频的基础文件信息、内容理解特征等。
- 策略算法 - 当状态空间较小时,基础的个性化能力可仅为简单或复杂的规则;随着状态空间的增加,使用适当的数学模型会有更好的效果;再随着状态空间的更进一步增加,统计机器学习或深度学习模型能够逐步发挥其价值,更为数据驱动式地为用户量身定制流媒体服务。而当动作空间不断扩展时,需要全面统筹不同的干预动作,进行多干预点联合建模优化或者面向最终目标端到端统一建模。
- 规模难度 - 优化的难度和收益均随着业务或问题的规模量级提升而提升,为可实施个性化技术的基础。且高精度下优化的理解与度量本身即具备极高的技术门槛。
➤
面向百万用户群体下,不值得去做的事情,在面向亿级群体时会变得十分有意义;而在面向亿级用户群体时,对于百万用户群体来说的微小问题,也会有很大的负向影响。
➤
抖音目前包含短视频、中长视频、版权视频,覆盖全类型视频内容,包含各年龄段、各知识层级水平的全类型用户,其视频内容与用户的双重多样性,带来远较一般平台更高的优化复杂度。
分级定义
在我们看来,应当将流媒体的个性化等级分为 L0 到 L5共 6 个级别。在对每一级别进行定义的同时,分不同维度进一步拆解定义,此种分级方式能够帮助衡量技术水平,同时指明发展方向。
级别
|
定义
|
分维度定义
| |
动作空间
|
状态空间
|
策略算法
|
规模难度
| |
L0
|
面向功能需求的流媒体系统开发。
|
· 解决可用性为主,流程跑通、功能可用。 · 对视频播放作通用处理或有限数量的技术选择。 · 功能需求驱动、Bug驱动。
| |
L1
|
基于基础特征的人工规则调整。
| · 建立若干在调干预点,干预点自然、显著且必要。 · 基于经验,进行人工挖掘。 | · 用户信息、机型信息等可以直接收集的基础特征,作为有限离线值域进行使用。 | · 基于单一状态的有限离散值域,制定简单的规则。 · 系统内各模块独立优化,不考虑状态空间联合优化。 · 主要以性能指标的优化为策略目标。 | · 视频全类型覆盖>60%,用户全类型覆盖>60%; · 业务优化精度百分之一。 | |
L2
|
对齐人群、设备或视频类别等维度进行策略优化。
|
· 建立十级别的在调干预点,基于业务设计非业界通用的干预点。 · 基于经验,借助基础分析工具,进行人工挖掘。
|
· 利用较完备的性能特征(百级)和部分业务特征,且能够基于基础特征进行交叉等再加工。 · 支持直接使用连续型值域的原始信号。
|
· 系统内部分模块联合优化、多状态组合使用进行策略制定。 · 使用性能和成本目标的影响进行优劣判断。
|
· 视频全类型覆盖>80%,用户全类型覆盖>80%。 · 业务优化精度千分之一。
| |
L3
|
广泛使用各领域的个性化技术实践,在 User、Item、Context 粒度上进行策略调控,形成领域内的个性化技术范式。
|
· 建立百级别的在调干预点,设计各模块间联动的干预点;同一干预点进行深入细化,如扩展值域。 · 建立方法论,基于逻辑推演,借助高阶数据分析工具,进行人工挖掘。
|
· 能够结合业务场景定制化特征,能够利用完备的业务特征与性能特征(千级),且能够对特征进行深度加工和有效性检验。 · 支持所有常见特征类型
|
· 面向业务建模为主的策略算法,包括留存、时长、营收指标、成本指标。 · 广泛使用端到端模型,从专家策略驱动为主迁移至数据算法驱动为主。
|
· 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度万分之一。
| |
L4
|
对齐最先进的个性化技术进行策略调控。
|
· 建立千级别的在调干预点,设计系统内外协同的干预点。 · 支持半自动化挖掘新干预点,支持自动化评估。
|
· 支持运用高阶信号,如 长序列、拓扑图、多模态等,能够提炼深层特征。 · 支持从业务影响度的视角端到端进行特征建设,能够通过数据挖掘技术驱动特征构建。
|
· 系统内各模块全链路融合优化;系统外关联模块联合优化。 · 策略全以业务目标建模,统筹单一场景下的多业务协同达到全局最优。 · 面对业务目标具备自适应性,策略可快速适应业务目标的战略调整。 ·广泛使用最先进的个性化技术。
|
· 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度十万分之一。
| |
L5
|
全系统、全链路精准可感知、精确可计算,形成系统级的跨领域个性化技术范式。
|
· 建立万级别的在调干预点,设计全系统、全链路协同的干预点。 · 支持全系统、全链路、全自动化的自主挖掘,取得代码上的最优实现。
|
· 多场景多业务联合信号。 · 自动化拓展状态空间,形成挖掘、生产、检验判断的整体技术链路。
|
· 考虑多场景、多业务,全系统、全链路的端到端统筹优化,在策略统筹、模型精度、计算复杂度等方面均达到理论最优。
|
· 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度百万分之一。
|
名词解释
针对分级定义中包含的各类专有名词进行解释。
_
|
解释(包括 说明、关键词、举例)
| |
个性化
|
在每个用户处于不同状态时,观看每个视频过程中,动态决策最优的流媒体策略
| |
最先进的个性化技术
|
在推荐、搜索、广告、用户增长等所有从事个性化的技术领域内,新近产出的大规模落地取得效果突破的技术,包括深度学习模型、LLM、因果推断、最优化建模方法等等
| |
全链路
| 指从视频包括拍摄制作上传的生产端,到服务端视频增强、转码,网络部署调度,客户端下载播放的消费端的整个过程 | |
全系统
|
App 内的所有功能和业务、系统和框架
| |
系统级
|
从整体视角来分析和解决问题,对系统内各个模块统筹协调,避免各模块各自为政、互相冲突
| |
User
|
指产品的用户,主要包含拍摄制作上传作品的用户和观看消费作品的用户
| |
Item
|
指用户可以交互的对象,如视频、图片、文字、直播流、商品等
| |
Context
|
上下文信息,这里指用户的历史消费行为数据和当前设备的消费状态等,如用户历史的点赞/转发等交互行为、历史卡顿时长/首帧时长等性能特征
| |
视频全类型
|
所在市场中,所有视频平台内细分内容类型的全集
| |
用户全类型
|
所在市场中,所有视频平台内细分用户类型的全集
| |
基础特征
|
显而易见或广泛使用的特征,比如设备的类型、品牌、型号、硬件性能
| |
自动化
|
指一种方法或运行模式对人工干预的需求度;全自动化即表示方法的执行完全依赖预先设定的程序与流畅,不需要人工干预;半自动化表示方法的执行主要依赖预先设定的程序,但是过程中需要一定的人工干预
| |
干预点
|
可以对不同用户在不同情景下,可调节的参数项及其取值,比如,预加载的视频个数、每个视频的缓存大小、分辨率选择、线程的启动时机 等等
| |
动作空间
|
系统中的全部可能的干预点集合,通过扩展动作空间,使得我们可以控制更多的可调变量或干预点,进一步创造出过去未被发现的干预点
| |
状态空间
|
一般指系统全部可能的状态集合,这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间
| |
策略
|
为了达成优化目标,决策如何调整系统中干预点的方法
| |
多场景
|
指 App 中提供不同功能的业务场景,如 信息流页面、投稿页面、搜索页面、商城页面 等
| |
多业务
|
指 App 中提供不同价值的业务划分,如 广告业务、搜索业务、直播业务、电商业务 等
| |
多系统
|
服务于流媒体的技术系统,以及与相关联业务的技术系统。如,文件存储系统、视频转码系统、流媒体网络系统;推荐系统、广告系统、电商系统
| |
端到端
|
“全链路”的另一种表达,指从视频包括拍摄制作上传的生产端,到服务端视频增强、转码,网络部署调度,客户端下载播放的消费端的整个过程
| |
高阶数据分析工具
|
具备通过复杂的分析手段、机器学习、因果推断、挖掘系统和可视化技术,在简单数据分析之外获得新洞察、发现隐藏模式的数据分析工具
| |
高阶信号
|
需要通过复杂手段或者模型而制得的信号特征,且模型需要为这些信号做定制化适配,如实时化、长序列、多模态、拓扑网络等
| |
数据驱动
|
相对于专家策略驱动来说的,决策时无需过多的人工经验总结,利用数据进行自动决策。例如,使用机器学习技术进行实时决策,替代人工分析数据分布制定不同情景下的具体策略
| |
联合优化
|
考虑多个目标之间的相互关系,通过综合考虑各个目标的取值来找到一个全局/近似全局最优解
| |
融合优化
|
比联合优化更进一步,统一系统内的多个模块及节点进行建模优化
| |
业务目标
|
指期望对用户行为产生的影响,可能包括产品的用户活跃度、观看时长等用户规模相关目标,广告、直播打赏、电商收入等营收相关目标,更宽泛地,还可以包含成本占收比、用户口碑等
| |
性能指标
|
衡量和评估系统效果和效率的指标。如 发布时长、卡顿时长、首帧时长、RTT(数据流往返的网络耗时)等
| |
业务指标
|
每个业务所具体关注、可精确度量的北极星指标。如 用户活跃天数、用户活跃时长、CPM、GMV 等
| |
业务优化精度
|
极致化提升业务指标,不止是技术上追求极致,也是精进对指标的度量能力,如测量出提升核心业务指标 0.001%,需要满足统计学上的“显著性”要求
|
抖音短视频上的演进
自 2016 年启动至 2025 年为止,抖音经历了一段高速发展的进程,并在此期间逐步构建起日渐成熟的个性化流媒体技术能力。纵观这一发展阶段,通过不同部门协作,在诸多关键优化项上持续突破,代表性优化列举如下:
分级
|
时间周期
|
阶段描述
|
代表性优化项
| |
L0
|
2016 年
| 业务功能实现,流媒体链路各环节性能符合基础需求
抖音: 实现基本功能 |
| |
L1
|
2016 年 ~ 2018 年
| 在流媒体链路的服务端、客户端等主要环节支持利用用户(设备)、视频的基础信息进行策略干预
抖音: 服务端提供多码率转码能力,客户端支持网速预测、预加载、档位选择等 |
- 利用基础信息(如,观看数),使用规则化方法进行转码资源使用
- 利用基础信息(如,设备分、预测网速)进行预加载与播放的过程控制
| | L2 |
2019 年 ~ 2021 年
| 在流媒体端到端链路上的不同环节上,覆盖式建立策略干预点,利用主要用户、视频特征,能够在局部利用复杂算法,并对部分模块能进行联合优化
抖音: 主要的端到端环节完成策略化覆盖,能够综合运用用户、视频等特征,使用了价值预测模型,预加载算法等 |
- 基于CAE的视频转码能力
- 基于ROI 区域的编码能力
- 基于视频价值模型预测的转码资源使用策略
- CDN冷热文件调度
- CDN节点调度(质量 & 成本)
- 多特征拟合曲线的档位选择
- 预加载算法化
| |
L3
|
2022 年 ~ 2024 年
| 支持大量干预点,支持各模块联动,广泛使用画像等经过深度加工的特征,使用复杂算法、模型,并同时平衡各类业务指标如留存类、营收类与成本类等
抖音: 增加了大量可调干预点,同时广泛运用了音视频、网络、设备特征,推荐、商业化、投稿、评论等业务特征,对主要性能维度建设敏感画像,在端内不同组件间、端云之间统筹联动,并与端智能紧密结合,由少数专家驱动过渡至数据、算法驱动的研发模式 |
- 视频粒度的档位组合能力(UIAE)
- 前处理、转码、重转码等多模块联合的资源分配
- 为不同价值与诉求的视频,最优化分配异构编码硬件资源
- 基于实时视频价值预测的冷热 CDN 文件调度
- 基于网络状态、设备性能、用户行为、用户偏好、商业价值的自适应档位选择
- 基于视频内容、动态性能分的端上超分、锐化等增强,并与档位选择能力进行联合决策
- 基于网络状态、用户行为/偏好、商业价值、时间服务、成本预测的视频缓存决策
- 基于剩余时间预测模型的 LoadMore 技术
- 流媒体系统内的端云策略联合:档位组合、编码策略、档位选择、解码策略的个性化联合决策
- 广泛引入因果推断技术进行决策
| |
L4
|
2025 年 ~ 2028 年
| 迈向未来,广泛对齐最先进的个性化技术
抖音: 技术生态持续完善中 |
建设中,举例:
- B级以上参数的深度模型预测,支持长序列特征与生成式模型
- 使用多模态模型对视频进行画质向理解,以支持个性化策略
- 档位组合实现编码、选档、网络调度的端云结合
- 干预点组合探索,半自动化挖掘新干预点
- 用户长期行为建模,进行播放优化
- 对业务目标与主观体验建模,如画质感受、音质感受、流畅度感受
- 多业务联合(广告、电商、直播、点播)优化建模
- 下载与播放决策面向业务目标直接建模
- 基于生成式技术的端到端编解码器、前后处理能力
|
