有趣的人生,一半是柴米油盐,一半是山川湖海。我们生活的底色,不仅有披星戴月下班回家的温暖烛光,也应有轻松假期拥抱世界的五彩斑斓。无论是日常生活还是休闲度假,我们应该把更多的精力放在体验上,感受与家人朋友同行的美好时光。然而事实是,不少人的旅行都是下车拍照,上车睡觉,回了酒店开始精修图片、思考文案为发朋友圈,体验本身却因为记录而打了折扣。那么,可不可以就放心去玩,拍片和剪辑都自动ready呢?
基于这样美好的愿景,我们用视频AI技术打造了软硬一体化的创意互动的VLOG智能剪辑产品,解决无法自主拍摄,自主拍摄费时费力,沉浸式体验场景拍摄等用户痛点,一键生成游客专属的沉浸式vlog短视频,让每个人便捷的获得独属你自己的美好记忆。
VLOG智能剪辑提供了线下高清素材拍摄能力,并结合多源特征(有源RFID特征和RGB视觉特征)识别能力,精准的实现了线下的人物抓取,产出优质个人素材。产品的核心部分主要包含线下AIOT拍摄设备,智能算法以及智能创作云3个部分,实现了云-边-端一体的智能VLOG成片能力。整个系统的框架主要如下:
智能算法是整个AI智能剪辑里最核心的部分,里面的AI算法主要包含多模态聚类算法和人物高光剪辑算法两个部分。多模态聚类算法主要实现游客的身份识别以及跨摄像头的目标跟踪;高光剪辑算法则综合了动作,表情,手势以及人与物的关系多种能力,分析当前游客的状态,以期能够自动剪辑出游客最值得留念的一瞬间。
多模态聚类算法
- 什么是多模态特征
对大家来说最常见的生物特征识别技术就是人脸识别技术,绝大部分的应用都是依赖人脸实现对视频中的人物的身份识别。而且我们实际应用的场景中,人脸往往并不能一直面对镜头或者由于各种原因人脸会产生遮挡,污染导致我们并没有办法对视频中的人物的每一帧实现身份认证,在这样的背景下,我们充分利用到视频人体的多种生物特征(包括人脸特征,人体特征,标志物特征,有源信号特征)来实现目标的身份认证,我们把这种特征称为多模态特征。
- 什么是聚类
聚类(Clustering)是按照某个特定标准(如距离)把数据分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
- 如何实现多模态复合聚类
对任意一段输入视频,我们首先快速对其进行多目标跟踪,得到高置信度的人物片段track,并且在此过程中完成每一个人体的质量评估,挑选出清晰度,画质更高的人体帧进入特征提取阶段。多模态特征提取阶段会实现根据各个场景配置不同的特征的提取方案(比如在运动场景我们更加侧重人体和标志物特征,旅游打卡场景我们更加侧重人脸和人体的特征),得到目标的多模态特征后我们会和特征档案库中用户的注册特征进行比较,实现目标的身份认证以及不同track的目标片段聚合。同时档案系统会自动记录下当前的目标的多模态特征,更新入库,为下一次的聚类过程提供更加鲁棒的生物特征。详细流程如下:
高光识别算法
“高光”在实际的场景中有极其丰富的定义,不同的场景下用户对自己“高光”瞬间要求差异较大。比如在运动场景(如滑雪,飞盘)用户更在意的是自己在该项运动中表现极佳或者极差的瞬间;旅游打卡场景用户更在意当时“情绪”状态;极限运动(蹦极,过山车)用户更在意的是某一个惊险的瞬间。总结来说,游客需要的是对自己有纪念价值,有体验价值的瞬间,这就意味这我们的高光捕捉算法是动态的,能够根据场景自动化调整。
基于此我们设计一套自动化配置的算法系统,该套系统里面集成了人脸表情,人体手势,动作识别,人物关系检测等多种AI算法,这些算法可以根据一套配置系统由客户自己去灵活的选择需要怎样的高光,甚至可以根据自己当季的活动,当季的模版自由定制。
素材美化
智能创作核心主要包含两个部分,第一部分是素材的AI美化,素材AI美化技术大量的运用到了智能创作部门为抖音,西瓜等内部产品打磨的视频素材美化能力,核心包括如美颜,美体,背景虚化等,更加突出人物的主体,美化现场素材,让用户的旅游记忆更加美好。
智能成片
第二部分功能是智能成片,把美化好的用户素材上传的云端,通过预先定义好的脚本实现对多个点位的素材的自动化成片,实现云端的剪辑,存储以及播放预览。同时生成好的视频可以通过已有的触点下载,并支持一对一分发可,同时支持一键登陆上传抖音等功能,为用户提供除朋友圈外更加丰富广袤的分享空间。
下面我们一起来欣赏下我们在旅游景区、文体运动(滑雪)场景下生成的智能VLOG吧~