几款和视频字幕处理相关的AI开源项目

视频服务关系型数据库图像处理
前言

VideoLingo 是一款视频翻译与本地化工具,提供高质量的字幕和配音服务。它集成了 yt-dlp、WhisperX 和 GPT 等技术,通过直译、反思、意译三步流程,确保翻译质量媲美专业字幕组。支持多语言本地化、批量处理等功能,适用于教育视频、影视作品等场景,项目采用 Apache 2.0 许可证。

此外,video-subtitle-generator 可生成多语言字幕文件,video-subtitle-remover 能去除视频中的硬字幕,而 video-subtitle-extractor 则可提取视频中的硬字幕并生成外挂字幕文件。

picture.image

VideoLingo🌟 项目简介

    在全球化迅速发展的今天,语言障碍成为了知识共享与文化交流的一大阻碍。为了解决这一问题,**VideoLingo**  应运而生,成为一款一站式的视频翻译与本地化配音工具。VideoLingo 的目标是为用户提供媲美 Netflix 水准的高质量字幕和配音,彻底告别生硬的机器翻译和多行字幕的尴尬局面。无论是教育视频、影视作品还是商业内容,VideoLingo 都能帮助用户轻松实现视频内容的多语言本地化,让全球观众无缝享受优质内容。


    通过直观友好的 **Streamlit**  网页界面,用户只需简单的几步操作,即可将视频链接转化为内嵌高质量的双语字幕,甚至添加专业级的配音。VideoLingo 集成了多项先进技术,包括 **yt-dlp**  用于从 YouTube 下载视频,**WhisperX**  进行精准的单词级时间轴字幕识别,以及基于 **NLP**  和 **GPT**  的智能字幕分割和翻译。其独特的三步翻译流程——直译、反思、意译,确保翻译质量堪比专业字幕组的精细程度,同时严格按照 Netflix 的标准检查字幕长度,避免出现多行字幕的问题。

主要特点和功能:

🎥 使用 yt-dlp 从 YouTube 链接下载视频🎙️ 使用 WhisperX 进行单词级时间轴字幕识别📝 使用 NLP 和 GPT 根据句意进行字幕分割📚 GPT 总结提取术语知识库,上下文连贯翻译🔄 三步直译、反思、意译,媲美字幕组精翻效果✅ 按照 Netflix 标准检查单行长度,绝无双行字幕🗣️ 使用 GPT-SoVITS 等方法对齐配音🚀 整合包一键启动,在 Streamlit 中一键出片📝 详细记录每步操作日志,支持随时中断和恢复进度🌐 全面的多语言支持,轻松实现跨语言视频本地化

效果演示

俄语翻译 : ru_demo.mp4[1] •GPT-SoVITS 配音 : sovits.mp4[2] •OAITTS 配音 : OAITTS.mp4[3]

语言支持

VideoLingo 支持多种语言的翻译与配音,涵盖英语、俄语、法语、德语、意大利语、西班牙语、日语和中文等主流语言,满足不同用户的需求。配音方面,VideoLingo 采用 GPT-SoVITS 等先进方法,实现与视频内容完美对齐的高质量配音。无论是在线体验还是本地安装,VideoLingo 都提供了便捷的使用方式,用户可以根据自身需求选择最适合的安装方式。

| 输入语言 | 支持程度 | 翻译 demo | | 英语 | 🤩 | 英转中 | | 俄语 | 😊 | 俄转中 | | 法语 | 🤩 | 法转日 | | 德语 | 🤩 | 德转中 | | 意大利语 | 🤩 | 意转中 | | 西班牙语 | 🤩 | 西转中 | | 日语 | 😐 | 日转中 | | 中文* | 🤩 | 中转英 |

*中文需单独配置 WhisperX 模型,仅适用于本地源码安装,配置过程见安装文档,并注意在网页侧边栏指定转录语言为 zh

翻译语言支持大模型会的所有语言,配音语言取决于选取的 TTS 方法。

🚀 快速开始

在线体验 : 只需 5 分钟即可在 Colab[4] 中快速体验 VideoLingo。 •本地安装 : VideoLingo 提供一键简易包和源码安装两种本地安装方式,请参考安装文档[5]。 •使用 Docker : 提供 Dockerfile,支持 CUDA 12.4 和 NVIDIA Driver > 550。构建与运行方法:

docker build -t videolingo . docker run -d -p 8501:8501 --gpus all videolingo

注:当前 Docker 版 VideoLingo 还有待完善,详情见: Docker[6] 。

🏭 批量模式

此外,VideoLingo 还支持批量处理模式,满足大规模视频翻译与本地化的需求。支持批量处理,使用说明请参见 English[7] | 简体中文[8]。

⚠️ 当前限制

尽管当前 VideoLingo 在人声分离和多角色配音方面还存在一些限制,但其开发团队已经制定了清晰的路线图,计划在未来加入更多功能,如 VAD 区分说话人、翻译风格自定义、用户术语表以及商业化服务等。VideoLingo 的开源性质和 Apache 2.0 许可证的采用,使其在社区中得到了广泛的支持与贡献,进一步推动了其技术的不断完善与创新。

资源要求高 : UVR5 人声分离对系统资源要求较高,建议使用 16GB 以上内存和 8GB 以上显存的设备。 •配音质量 : 由于语言结构差异,配音效果可能不完美,建议选择相近语速的 TTS,并采用 GPT-SoVITS 训练原视频声音以获得最佳效果。 •多语言识别 : 多语言视频转录仅保留主要语言,暂不支持多角色配音。

🚗 路线图

•VAD 区分说话人,多角色配音 •翻译风格自定义 •用户术语表 •提供商业化服务 •配音视频唇形同步

📄 许可证

本项目采用 Apache 2.0 许可证 。使用时请遵循以下规定:

1.发表作品时建议标注字幕由 VideoLingo 生成。 2.遵循使用的大模型和 TTS 条约进行备注。 3.如拷贝代码请包含完整的 Apache 2.0 许可证副本。

我们衷心感谢以下开源项目的贡献,为 VideoLingo 的开发提供了重要支持:

• whisperX[9]

• yt-dlp[10]

• json_repair[11]

• GPT-SoVITS[12]

• BELLE[13]

VideoLingo 以其强大的功能、简便的操作和卓越的翻译质量,正在成为视频翻译与本地化领域的一匹黑马。无论你是内容创作者、教育机构还是企业用户,VideoLingo 都将是你实现全球化传播的理想选择。

其他

video-subtitle-generator

Video-subtitle-generator (vsg) 是一款基于语音识别,将音频/视频生成外挂字幕文件(srt格式)的软件。

•支持中文、英文、韩文、日文、越南语、俄语、西班牙语、葡萄语等语言的字幕生成

地址:https://github.com/wysstartgo/video-subtitle-generator

Video-subtitle-remover

Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。主要实现了以下功能:

无损分辨率 将视频中的硬字幕去除,生成去除字幕后的文件 •通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除) •支持自定义字幕位置,仅去除定义位置中的字幕(传入位置) •支持全视频自动去除所有文本(不传入位置) •支持多选图片批量去除水印文本

地址:https://github.com/YaoFANGUK/video-subtitle-remover

video-subtitle-extractor

Video-subtitle-extractor (VSE) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件。主要实现了以下功能:

•提取视频中的关键帧 •检测视频帧中文本的所在位置 •识别视频帧中文本的内容 •过滤非字幕区域的文本

• 去除水印、台标文本、原视频硬字幕,可配合:video-subtitle-remover (VSR)[14]

•去除重复字幕行,生成srt字幕文件/txt文本文件

若需要生成txt文本,可以在backend/config.py中设置 GENERATE_TXT=True

•支持视频字幕批量提取 •多语言:支持简体中文(中英双语)繁体中文英文日语韩语越南语阿拉伯语法语德语俄语西班牙语葡萄牙语意大利语87种 语言的字幕提取 •多模式:•快速 :(推荐)使用轻量模型,快速提取字幕,可能丢少量字幕、存在少量错别字•自动 :(推荐)自动判断模型,CPU下使用轻量模型;GPU下使用精准模型,提取字幕速度较慢,可能丢少量字幕、几乎不存在错别字•精准 :(不推荐)使用精准模型,GPU下逐帧检测,不丢字幕,几乎不存在错别字,但速度非常慢

地址:https://github.com/YaoFANGUK/video-subtitle-extractor

声明

本文由山行整理自:https://github.com/Huanshere/VideoLingo ,如果对您有帮助,请帮忙点赞、关注、收藏,谢谢~

References

[1] ru_demo.mp4: #
[2] sovits.mp4: #
[3] OAITTS.mp4: #
[4] Colab: #
[5] 安装文档: #
[6] Docker: #
[7] English: #
[8] 简体中文: #
[9] whisperX: https://github.com/m-bain/whisperX
[10] yt-dlp: https://github.com/yt-dlp/yt-dlp
[11] json_repair: https://github.com/mangiucugna/json\_repair
[12] GPT-SoVITS: https://github.com/RVC-Boss/GPT-SoVITS
[13] BELLE: https://github.com/LianjiaTech/BELLE
[14] 去除水印、台标文本、原视频硬字幕,可配合:video-subtitle-remover (VSR): https://github.com/YaoFANGUK/video-subtitle-remover/tree/main

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论