🐯 猫头虎分享:如何在本地使用openai-whisper
实现音频转文本?
最近很多小伙伴咨询如何在本地环境使用 OpenAI 的 Whisper 模型把音频文件转换成文本 。今天,猫头虎就来给大家手把手 教学,流程完整,保姆级教程 🛠️!
AI语音
作者名片 ✍️
博主 : 猫头虎
全网搜索关键词 : 猫头虎
作者微信号 : Libin9iOak
作者公众号 : 猫头虎技术团队
更新日期 : 2024年12月16日
🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!
加入我们AI共创团队 🌐
- 猫头虎AI共创社群矩阵列表 :
- 点我进入共创社群矩阵入口
- 点我进入新矩阵备用链接入口
加入猫头虎的共创圈,一起探索编程世界的无限可能! 🚀
📌 1. 准备工具和环境
在开始之前,确保你的本地电脑具备以下条件:
- Python 环境 :Python 3.8 及以上版本
- ffmpeg :处理音频所必需的工具
- openai-whisper :OpenAI 提供的开源语音识别模型
- GPU (可选):如果你有显卡,Whisper 可以更快运行
🚀 2. 安装必备依赖
🔧 步骤 1:安装ffmpeg
Whisper 需要ffmpeg
来处理音频文件,按以下步骤安装:
- Windows 系统:
前往FFmpeg 官网:https://ffmpeg.org/download.html 下载并解压,然后将ffmpeg.exe
所在目录加入系统环境变量。 - Linux / macOS 系统:
打开终端,运行以下命令:
# Linux (Ubuntu)
sudo apt update && sudo apt install ffmpeg
# macOS (使用 Homebrew)
brew install ffmpeg
如何在本地使用 openai-whisper 实现音频转文本?
🛠️ 步骤 2:安装openai-whisper
Whisper 是一个开源的 Python 包,使用pip
安装即可。在终端输入:
pip install openai-whisper
如果你的网络不稳定,可以使用国内镖像加速:
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
如何在本地使用 openai-whisper 实现音频转文本?
📦 步骤 3:安装 PyTorch
Whisper 模型依赖 PyTorch 库,安装 PyTorch:
- 无 GPU (CPU 环境):
pip install torch torchvision torchaudio
- 有 GPU (CUDA 环境): 前往 PyTorch 官网 查看 CUDA 版本对应的安装命令。
📈 3. 手动下载模型:解决无网环境
如果你的网络无法连接 OpenAI 下载模型,可以采用手动方式下载模型。
📏 下载地址:
前往 HuggingFace,下载对应模型的.pt
文件:
- 例:Whisper 模型 - Base 版本:https://huggingface.co/openai/whisper-base/tree/main
下载后,将.pt
文件存储在本地,如:
~/models/whisper/base.pt
💲 安装步骤:指定本地模型
在 Python 脚本中,加载本地模型,使用以下代码:
import whisper
# 指定本地 Whisper 模型路径
model\_path = "~/models/whisper/base.pt" # 修改为你的模型路径
model = whisper.load\_model(model\_path)
# 音频文件路径
audio\_path = "audio.m4a"
# 转录音频
print("\ud83c\udfa7 开始音频转文字...")
result = model.transcribe(audio\_path)
# 输出转录文本
print("\n\ud83c\udf89 转录结果如下:")
print(result["text"])
# 保存结果到文件
with open("transcribed\_text.txt", "w", encoding="utf-8") as f:
f.write(result["text"])
print("\n\u2705 转录文本已保存至 transcribed\_text.txt")
🔢 4. 开始运行代码
在终端中运行 Python 脚本:
python transcribe\_audio.py
等待片刻,你会看到以下输出:
🎧 开始音频转文字...
🎉 转录结果如下:
<转录的文本内容>
✅ 转录文本已保存至 transcribed\_text.txt
📊 5. 性能与模型对比
| 模型 | 大小 | 速度 | 适用场景 | | --- | --- | --- | --- | | tiny | 39 MB | 非常快 | 快速测试、低资源设备 | | base | 74 MB | 快 | 小型项目 | | small | 244 MB | 中等 | 普通项目,效果较好 | | medium | 769 MB | 较慢 | 高精度需求 | | large | 1550 MB | 较慢 | 最高精度 |
☀️ 6. 总结与展望
通过以上步骤,你已经成功在本地环境中使用openai-whisper 模型实现了音频转文本 🎉。
未来,随着 Whisper 模型的不断优化,我们可以期待:
- 更快的识别速度
- 更高的转写出错率
- 支持更多语言和口音
喜欢这个教程的朋友,快动手试试吧!💪🐯
🎁附加资源 :
- Whisper GitHub 地址: OpenAI Whisper
- PyTorch 官网: PyTorch Installation
👨💻猫头虎 将持续分享 AI 技术干货,关注我,学习路上不迷路 🚀
👉更多信息 :有任何疑问或者需要进一步探讨的内容,欢迎点击文末名片获取更多信息。我是猫头虎,期待与您的交流! 🦉💬
🌐 第一板块:
- 链接 :[直达链接] https://zhaimengpt1.kimi.asia/list
https://zhaimengpt1.kimi.asia/list
💳 第二板块:最稳定的AI全平台可支持平台
- 链接
:[粉丝直达链接]
https://bewildcard.com/?code=CHATVIP
联系我与版权声明 📩
- 联系方式 :
- 微信: Libin9iOak
- 公众号: 猫头虎技术团队
- 版权声明 : 本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问 猫头虎的博客首页 。
点击✨⬇️下方名片
⬇️✨,加入猫头虎AI共创社群,交流AI新时代变现的无限可能。一起探索科技的未来,共同成长。🚀