两个本地的视频和音频转文本AI工具软件:whisperdesktop和Buzz

大模型智能应用MySQL

之前的文章:《5个AI语音转文本工具评测,哪些免费又好用?》,对飞书妙记工具、网易见外、讯飞听见、钉钉闪记这5个AI语音转文本工具进行了评测,飞书妙记、钉钉闪记都表现不错。但是,这几个工具都是在线的,离网就用不了了。另外,虽然飞书妙记、钉钉闪记现在不收费,但是有一定的限制和额度。有没有一些本地安装的AI工具软件,既免费,又可以不依赖网络呢?

打造出ChatGPT的的人工智能公司 OpenAI ,开源了 Whisper 自动语音识别模型,能实现多种语言的转录,以及将这些语言翻译成英语。 基于Whisper模型,whisperdesktop和Buzz这两款软件都实现了视频和音频转文本的功能。

●WhisperDesktop

要使用WhisperDesktop,首先要下载模型文件ggml-medium.bin,下载地址:

https://huggingface.co/datasets/ggerganov/whisper.cpp/blob/main/ggml-medium.bin,点击download

     ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/8889b7c802664d659a1c47cf2bcdf330~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1749054624&x-signature=wq7wCjw%2BtJhdLooarCuGypZLBwI%3D)

然后打开软件,选择电脑中的模型保存地址

picture.image

接下来language这里选择视频或音频的语言种类,transcrib file选择视频或音频的具体地址,output format选择导出的格式,选择text files就可以了。如果要做视频字幕,可以选择subrip subtitles或者webvtt subtitles。然后点击transcrble就可以了。

picture.image

效果怎么样呢?选了一个 6分41秒的视频 ,耗时9分41秒完成,英文翻译的效果非常不错。

picture.image

需要注意的是,WhisperDesktop 运行时会比较消耗电脑资源,对磁盘空间和内存大小都有要求,电脑速度会明显变慢、卡顿。所以如果要转长视频的话,最好在不用电脑的时间段。

●Buzz

首次打开buzz,需要下载模型,耗时较长,大概需要40分钟,需耐心等待。

picture.image

打开软件后,点击file,import media files

picture.image

然后选择whisper模型,分为:tiny、base、small、medium和large

picture.image

目前 Whisper 有 9 种模型(分为纯英文和多语言),我们可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:

picture.image

一般情况下,选择small就可以了。如果电脑配置比较好,对效果有更高要求,可以选择medium和large模型。

一个2分钟视频,很快就完成了。

picture.image

然后选中这个视频文件,点击上图的按钮,会弹出语音识别结果

picture.image

点击底部的export,可以导出为text文件或者srt格式的字幕文件。

picture.image

识别效果很不错。

值得一提的是,buzz可以批量进行语音和视频转文本,非常方便。

这两个工具软件和相关模型可以在GitHub网站上免费下载,也可以在知识星球“AIGC部落”中一键下载。

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论