火山引擎开发者社区技术大讲堂第二期 QA 回顾第五弹 —— 视频技术

Q:文字转视频里面的文本摘要,这个步骤是必要的吗?有什么作用呢?

这个步骤是必要的。因为有很多文章非常长,如果不做摘要去做成一个视频的话,那视频内容也会很长,会对用户的观感产生比较大的影响。在我们的技术中,文章摘要最大的目的是充分提炼最关键的信息,然后让用户更高效地获取到最关键的内容。

Q:3D 运镜是端侧推理的吗? Mesh 是如何构建的呢?加速做了哪些工作呢?

这一技术其实耗时是非常久的。它可以去做云端的推理,也可以做端上的推理。然后我们现在也能够实现端上的整体的 pipeline 。但是它并不是一个实时的效果,还是在端上需要几百毫秒或者一秒的时间去完成整体的运行效果。当然,如果要追求效果的最优,我们还是更多地会给用户去提供服务端的整体的效果。

Q:智能抠图会因为后续帧存在遮挡前后帧不一致影响效果吗?会引入运动估计信息吗?

怎么保证视频抠图的视频稳定性,的确是一个比较 challenging 的问题。不过也有很多的方案可以解决。比如可以基于图片去抠图,就是按照每帧进行处理,然后中间加一些前后帧的分割信息的融合策略,来缓解视频的抖动。然后也可以基于视频抠图,把前帧的 feature 信息融合到 feature 里边来,然后去输出抠图的效果。那遮挡的话是一个比较难的 case ,可以用更多的数据生成,模拟遮挡的 case,模型见到更多这样的数据之后,它自然而然就能更好地处理这种场景。当然如果你不做特殊处理,然后突然来了一个遮挡,它是有可能会有一些残影的。这个问题也可以通过数据的方法去解决。

9417
1
0
avatar

不错

0
1评论
0
查看更多评论
关于作者

文章

0

获赞

0

收藏

0