之前的文章:《5个AI语音转文本工具评测,哪些免费又好用?》,对飞书妙记工具、网易见外、讯飞听见、钉钉闪记这5个AI语音转文本工具进行了评测,飞书妙记、钉钉闪记都表现不错。但是,这几个工具都是在线的,离网就用不了了。另外,虽然飞书妙记、钉钉闪记现在不收费,但是有一定的限制和额度。有没有一些本地安装的AI工具软件,既免费,又可以不依赖网络呢?
打造出ChatGPT的的人工智能公司 OpenAI ,开源了 Whisper 自动语音识别模型,能实现多种语言的转录,以及将这些语言翻译成英语。 基于Whisper模型,whisperdesktop和Buzz这两款软件都实现了视频和音频转文本的功能。
●WhisperDesktop
要使用WhisperDesktop,首先要下载模型文件ggml-medium.bin,下载地址:
https://huggingface.co/datasets/ggerganov/whisper.cpp/blob/main/ggml-medium.bin,点击download

然后打开软件,选择电脑中的模型保存地址
接下来language这里选择视频或音频的语言种类,transcrib file选择视频或音频的具体地址,output format选择导出的格式,选择text files就可以了。如果要做视频字幕,可以选择subrip subtitles或者webvtt subtitles。然后点击transcrble就可以了。
效果怎么样呢?选了一个 6分41秒的视频 ,耗时9分41秒完成,英文翻译的效果非常不错。
需要注意的是,WhisperDesktop 运行时会比较消耗电脑资源,对磁盘空间和内存大小都有要求,电脑速度会明显变慢、卡顿。所以如果要转长视频的话,最好在不用电脑的时间段。
●Buzz
首次打开buzz,需要下载模型,耗时较长,大概需要40分钟,需耐心等待。
打开软件后,点击file,import media files
然后选择whisper模型,分为:tiny、base、small、medium和large
目前 Whisper 有 9 种模型(分为纯英文和多语言),我们可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:
一般情况下,选择small就可以了。如果电脑配置比较好,对效果有更高要求,可以选择medium和large模型。
一个2分钟视频,很快就完成了。
然后选中这个视频文件,点击上图的按钮,会弹出语音识别结果
点击底部的export,可以导出为text文件或者srt格式的字幕文件。
识别效果很不错。
值得一提的是,buzz可以批量进行语音和视频转文本,非常方便。
这两个工具软件和相关模型可以在GitHub网站上免费下载,也可以在知识星球“AIGC部落”中一键下载。