火山引擎开发者社区技术大讲堂第二期 QA 回顾第五弹 —— 视频技术 - 问答

Q：文字转视频里面的文本摘要，这个步骤是必要的吗？有什么作用呢？

这个步骤是必要的。因为有很多文章非常长，如果不做摘要去做成一个视频的话，那视频内容也会很长，会对用户的观感产生比较大的影响。在我们的技术中，文章摘要最大的目的是充分提炼最关键的信息，然后让用户更高效地获取到最关键的内容。

Q：3D 运镜是端侧推理的吗？ Mesh 是如何构建的呢？加速做了哪些工作呢？

这一技术其实耗时是非常久的。它可以去做云端的推理，也可以做端上的推理。然后我们现在也能够实现端上的整体的 pipeline 。但是它并不是一个实时的效果，还是在端上需要几百毫秒或者一秒的时间去完成整体的运行效果。当然，如果要追求效果的最优，我们还是更多地会给用户去提供服务端的整体的效果。

Q：智能抠图会因为后续帧存在遮挡前后帧不一致影响效果吗？会引入运动估计信息吗？

怎么保证视频抠图的视频稳定性，的确是一个比较 challenging 的问题。不过也有很多的方案可以解决。比如可以基于图片去抠图，就是按照每帧进行处理，然后中间加一些前后帧的分割信息的融合策略，来缓解视频的抖动。然后也可以基于视频抠图，把前帧的 feature 信息融合到 feature 里边来，然后去输出抠图的效果。那遮挡的话是一个比较难的 case ，可以用更多的数据生成，模拟遮挡的 case，模型见到更多这样的数据之后，它自然而然就能更好地处理这种场景。当然如果你不做特殊处理，然后突然来了一个遮挡，它是有可能会有一些残影的。这个问题也可以通过数据的方法去解决。