VideoLingo 是一款视频翻译与本地化工具,提供高质量的字幕和配音服务。它集成了 yt-dlp、WhisperX 和 GPT 等技术,通过直译、反思、意译三步流程,确保翻译质量媲美专业字幕组。支持多语言本地化、批量处理等功能,适用于教育视频、影视作品等场景,项目采用 Apache 2.0 许可证。
此外,video-subtitle-generator 可生成多语言字幕文件,video-subtitle-remover 能去除视频中的硬字幕,而 video-subtitle-extractor 则可提取视频中的硬字幕并生成外挂字幕文件。
VideoLingo🌟 项目简介
在全球化迅速发展的今天,语言障碍成为了知识共享与文化交流的一大阻碍。为了解决这一问题,**VideoLingo** 应运而生,成为一款一站式的视频翻译与本地化配音工具。VideoLingo 的目标是为用户提供媲美 Netflix 水准的高质量字幕和配音,彻底告别生硬的机器翻译和多行字幕的尴尬局面。无论是教育视频、影视作品还是商业内容,VideoLingo 都能帮助用户轻松实现视频内容的多语言本地化,让全球观众无缝享受优质内容。
通过直观友好的 **Streamlit** 网页界面,用户只需简单的几步操作,即可将视频链接转化为内嵌高质量的双语字幕,甚至添加专业级的配音。VideoLingo 集成了多项先进技术,包括 **yt-dlp** 用于从 YouTube 下载视频,**WhisperX** 进行精准的单词级时间轴字幕识别,以及基于 **NLP** 和 **GPT** 的智能字幕分割和翻译。其独特的三步翻译流程——直译、反思、意译,确保翻译质量堪比专业字幕组的精细程度,同时严格按照 Netflix 的标准检查字幕长度,避免出现多行字幕的问题。
主要特点和功能:
• 🎥 使用 yt-dlp 从 YouTube 链接下载视频 • 🎙️ 使用 WhisperX 进行单词级时间轴字幕识别 • 📝 使用 NLP 和 GPT 根据句意进行字幕分割 • 📚 GPT 总结提取术语知识库,上下文连贯翻译 • 🔄 三步直译、反思、意译,媲美字幕组精翻效果 • ✅ 按照 Netflix 标准检查单行长度,绝无双行字幕 • 🗣️ 使用 GPT-SoVITS 等方法对齐配音 • 🚀 整合包一键启动,在 Streamlit 中一键出片 • 📝 详细记录每步操作日志,支持随时中断和恢复进度 • 🌐 全面的多语言支持,轻松实现跨语言视频本地化
效果演示
•俄语翻译 : ru_demo.mp4[1] •GPT-SoVITS 配音 : sovits.mp4[2] •OAITTS 配音 : OAITTS.mp4[3]
语言支持
VideoLingo 支持多种语言的翻译与配音,涵盖英语、俄语、法语、德语、意大利语、西班牙语、日语和中文等主流语言,满足不同用户的需求。配音方面,VideoLingo 采用 GPT-SoVITS 等先进方法,实现与视频内容完美对齐的高质量配音。无论是在线体验还是本地安装,VideoLingo 都提供了便捷的使用方式,用户可以根据自身需求选择最适合的安装方式。
| 输入语言 | 支持程度 | 翻译 demo | | 英语 | 🤩 | 英转中 | | 俄语 | 😊 | 俄转中 | | 法语 | 🤩 | 法转日 | | 德语 | 🤩 | 德转中 | | 意大利语 | 🤩 | 意转中 | | 西班牙语 | 🤩 | 西转中 | | 日语 | 😐 | 日转中 | | 中文* | 🤩 | 中转英 |
*中文需单独配置 WhisperX 模型,仅适用于本地源码安装,配置过程见安装文档,并注意在网页侧边栏指定转录语言为 zh
翻译语言支持大模型会的所有语言,配音语言取决于选取的 TTS 方法。
🚀 快速开始
•在线体验 : 只需 5 分钟即可在 Colab[4] 中快速体验 VideoLingo。 •本地安装 : VideoLingo 提供一键简易包和源码安装两种本地安装方式,请参考安装文档[5]。 •使用 Docker : 提供 Dockerfile,支持 CUDA 12.4 和 NVIDIA Driver > 550。构建与运行方法:
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
注:当前 Docker 版 VideoLingo 还有待完善,详情见: Docker[6] 。
🏭 批量模式
此外,VideoLingo 还支持批量处理模式,满足大规模视频翻译与本地化的需求。支持批量处理,使用说明请参见 English[7] | 简体中文[8]。
⚠️ 当前限制
尽管当前 VideoLingo 在人声分离和多角色配音方面还存在一些限制,但其开发团队已经制定了清晰的路线图,计划在未来加入更多功能,如 VAD 区分说话人、翻译风格自定义、用户术语表以及商业化服务等。VideoLingo 的开源性质和 Apache 2.0 许可证的采用,使其在社区中得到了广泛的支持与贡献,进一步推动了其技术的不断完善与创新。
•资源要求高 : UVR5 人声分离对系统资源要求较高,建议使用 16GB 以上内存和 8GB 以上显存的设备。 •配音质量 : 由于语言结构差异,配音效果可能不完美,建议选择相近语速的 TTS,并采用 GPT-SoVITS 训练原视频声音以获得最佳效果。 •多语言识别 : 多语言视频转录仅保留主要语言,暂不支持多角色配音。
🚗 路线图
•VAD 区分说话人,多角色配音 •翻译风格自定义 •用户术语表 •提供商业化服务 •配音视频唇形同步
📄 许可证
本项目采用 Apache 2.0 许可证 。使用时请遵循以下规定:
1.发表作品时建议标注字幕由 VideoLingo 生成。 2.遵循使用的大模型和 TTS 条约进行备注。 3.如拷贝代码请包含完整的 Apache 2.0 许可证副本。
我们衷心感谢以下开源项目的贡献,为 VideoLingo 的开发提供了重要支持:
• whisperX[9]
• yt-dlp[10]
• json_repair[11]
• GPT-SoVITS[12]
• BELLE[13]
VideoLingo 以其强大的功能、简便的操作和卓越的翻译质量,正在成为视频翻译与本地化领域的一匹黑马。无论你是内容创作者、教育机构还是企业用户,VideoLingo 都将是你实现全球化传播的理想选择。
video-subtitle-generator
Video-subtitle-generator (vsg) 是一款基于语音识别,将音频/视频生成外挂字幕文件(srt格式)的软件。
•支持中文、英文、韩文、日文、越南语、俄语、西班牙语、葡萄语等语言的字幕生成
Video-subtitle-remover
Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。主要实现了以下功能:
•无损分辨率 将视频中的硬字幕去除,生成去除字幕后的文件 •通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除) •支持自定义字幕位置,仅去除定义位置中的字幕(传入位置) •支持全视频自动去除所有文本(不传入位置) •支持多选图片批量去除水印文本
video-subtitle-extractor
Video-subtitle-extractor (VSE) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件。主要实现了以下功能:
•提取视频中的关键帧 •检测视频帧中文本的所在位置 •识别视频帧中文本的内容 •过滤非字幕区域的文本
• 去除水印、台标文本、原视频硬字幕,可配合:video-subtitle-remover (VSR)[14]
•去除重复字幕行,生成srt字幕文件/txt文本文件
若需要生成txt文本,可以在backend/config.py中设置
GENERATE_TXT=True
•支持视频字幕批量提取 •多语言:支持简体中文(中英双语) 、繁体中文 、英文 、日语 、韩语 、越南语 、阿拉伯语 、法语 、德语 、俄语 、西班牙语 、葡萄牙语 、意大利语 等87种 语言的字幕提取 •多模式:•快速 :(推荐)使用轻量模型,快速提取字幕,可能丢少量字幕、存在少量错别字•自动 :(推荐)自动判断模型,CPU下使用轻量模型;GPU下使用精准模型,提取字幕速度较慢,可能丢少量字幕、几乎不存在错别字•精准 :(不推荐)使用精准模型,GPU下逐帧检测,不丢字幕,几乎不存在错别字,但速度非常慢
本文由山行整理自:https://github.com/Huanshere/VideoLingo ,如果对您有帮助,请帮忙点赞、关注、收藏,谢谢~
References
[1]
ru_demo.mp4: #
[2]
sovits.mp4: #
[3]
OAITTS.mp4: #
[4]
Colab: #
[5]
安装文档: #
[6]
Docker: #
[7]
English: #
[8]
简体中文: #
[9]
whisperX: https://github.com/m-bain/whisperX
[10]
yt-dlp: https://github.com/yt-dlp/yt-dlp
[11]
json_repair: https://github.com/mangiucugna/json\_repair
[12]
GPT-SoVITS: https://github.com/RVC-Boss/GPT-SoVITS
[13]
BELLE: https://github.com/LianjiaTech/BELLE
[14]
去除水印、台标文本、原视频硬字幕,可配合:video-subtitle-remover (VSR): https://github.com/YaoFANGUK/video-subtitle-remover/tree/main