语音处理神器:Voice-Pro,一键安装实现转录、翻译和TTS!需自行部署!

大模型机器学习数据库

picture.image

大家最近有语音识别、翻译和 TTS(文字转语音)的相关需求吗?

这里有一个非常强大又方便的工具推荐给大家—Voice-Pro

它是一个基于 Gradio Web UI 的自托管工具。整合了实时转录、翻译和 TTS ,并且提供一键安装、批量处理和可视化界面,让你轻松应对各类语音需求。

毕竟在自媒体时代,语音识别和翻译需求愈发重要,尤其是对于内容创作者和需要跨语言沟通的用户。无论是下载YouTube视频、移除噪音,还是添加多语言字幕,Voice-Pro 都可以在一站式界面下轻松完成,让复杂的语音处理变得简单直观。

💡 主要特点概览

  • 全面集成功能 :包含YouTube下载器、噪音去除、字幕生成、翻译和TTS,用户可以在单一界面下完成整个流程。
  • 多语言支持 :支持100种语言的语音识别和字幕生成,翻译可达100多种语言,TTS提供可调的语速、音量和音调设置。
  • 视频无损转换 :在多语言视频中,原始背景音乐和音效不会受到干扰,让观看体验更加舒适。
  • 批量处理 :支持对多个文件进行批量操作,提升效率。

🔍 主要功能详解

Studio 标签页

Studio标签页是Voice-Pro的核心工作区,提供了全面的语音处理功能:

  • YouTube下载器 :可以直接从YouTube下载视频并提取音频,支持mp3、wav、flac等格式,方便用户后续处理。
  • 噪音去除 :通过UVR5和Demucs引擎分离语音和背景音,让语音内容更加清晰。
  • STT(语音转文字) :集成Whisper等多种模型,支持100种语言的语音识别,满足多语言转录需求。
  • 翻译 :支持多达100多种语言的翻译,并可直接将字幕翻译为语音输出。
  • TTS(文字转语音) :不仅可以将翻译后的文本转为语音,还可以调节语速、音量和音调,打造更加个性化的体验。

Whisper Caption 标签页

专为字幕制作设计,支持多语言字幕创建:

  • 多语言字幕支持 :包括90多种语言,适合需要多语言字幕的内容创作者。
  • 精准标记 :单词级的高亮功能,适用于需要精确配合的场景,确保字幕与语音同步。
  • 降噪功能 :降噪选项可选择Demucs和MDXNet算法,提升语音的清晰度。

Translate 标签页

Translate标签页专注于字幕翻译和文本翻译:

  • 字幕格式支持 :支持主流字幕文件格式(如ass、ssa、srt、vtt等),可以直接将字幕翻译成其他语言。
  • 文本直接输入 :如果不使用文件,也可以手动输入文本进行翻译,非常适合临时性的翻译需求。

TTS 标签页

适用于文字转语音处理,适合音频内容的制作:

  • 支持多种语言和声音 :包含400多种声音选择,可根据不同场景选择合适的发音。
  • 个性化调整 :用户可调整语音的音量、音调和语速,打造更自然的听感。

Live Translation 标签页

实时翻译功能,适合会议或实时转录场景:

  • 实时语音识别与翻译 :用户可选择麦克风或其他音频输入源,实现实时的字幕生成和翻译。
  • 数据保存 :支持保存转录的音频和翻译文本,方便后续查阅。

Batch 标签页

处理大量文件的批处理选项,适合大规模的翻译和字幕创建任务:

  • 批量字幕生成与翻译 :简化大批量文件处理过程,适合企业用户或高强度内容生产场景。
  • 批量TTS :支持字幕的批量语音合成,适用于大量音频文件的生成。

💻 运行环境

  • 系统要求 :支持Windows 10/11的64位系统,不适用于Linux和Mac OS。
  • 硬件建议 :推荐使用具备CUDA 12.1支持的NVIDIA显卡,4GB以上的显存会更为理想。
  • 内存要求 :4GB及以上。
  • 硬盘需求 :至少20GB的空闲空间。
  • 网络连接 :安装和使用翻译功能时需要联网。

📀 安装步骤

Voice-Pro支持一键安装,只需按照以下步骤操作:

准备包

可以从项目主页下载最新版本的zip文件。

安装与运行程序

  • 运行configure.bat :首次运行时将自动安装所需的依赖,包括git、ffmpeg和CUDA(如使用GPU)。此步骤可能耗时较长,请勿中途关闭命令窗口。
  • 运行start.bat :完成安装后会自动启动Voice-Pro的Web界面。首次运行需要联网,大约耗时一小时。

卸载程序

运行uninstall.bat文件,即可自动删除相关安装文件。

🌟 总结

总的来说,Voice-Pro 将语音识别、翻译和 TTS 功能集成在一个可视化、简便易用的界面中,可以为用户提供流畅的多语言处理体验。

可让你的语音处理工作更轻松!

项目地址:https://github.com/abus-aikorea/voice-pro

picture.image

一款改变你视频下载体验的神器:MediaGo

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

Star 50.3k!超棒的国产远程桌面开源应用火了!

四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论