猫头虎分享:如何在本地使用openai-whisper 模型实现音频转文本?

大模型向量数据库机器学习

🐯 猫头虎分享:如何在本地使用openai-whisper 实现音频转文本?

最近很多小伙伴咨询如何在本地环境使用 OpenAI 的 Whisper 模型把音频文件转换成文本 。今天,猫头虎就来给大家手把手 教学,流程完整,保姆级教程 🛠️!


picture.image

AI语音


作者简介

作者名片 ✍️

  • 博主 : 猫头虎

  • 全网搜索关键词 : 猫头虎

  • 作者微信号 : Libin9iOak

  • 作者公众号 : 猫头虎技术团队

  • 更新日期 : 2024年12月16日

  • 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!


加入我们AI共创团队 🌐

  • 猫头虎AI共创社群矩阵列表
  • 点我进入共创社群矩阵入口
  • 点我进入新矩阵备用链接入口

加入猫头虎的共创圈,一起探索编程世界的无限可能! 🚀


正文

📌 1. 准备工具和环境

在开始之前,确保你的本地电脑具备以下条件:

  1. Python 环境 :Python 3.8 及以上版本
  2. ffmpeg :处理音频所必需的工具
  3. openai-whisper :OpenAI 提供的开源语音识别模型
  4. GPU (可选):如果你有显卡,Whisper 可以更快运行

🚀 2. 安装必备依赖

🔧 步骤 1:安装ffmpeg

Whisper 需要ffmpeg 来处理音频文件,按以下步骤安装:

  • Windows 系统:
    前往FFmpeg 官网:https://ffmpeg.org/download.html 下载并解压,然后将ffmpeg.exe 所在目录加入系统环境变量。picture.image
  • Linux / macOS 系统:
    打开终端,运行以下命令:
  
# Linux (Ubuntu)  
sudo apt update && sudo apt install ffmpeg  
  
# macOS (使用 Homebrew)  
brew install ffmpeg  

picture.image

如何在本地使用 openai-whisper 实现音频转文本?

🛠️ 步骤 2:安装openai-whisper

Whisper 是一个开源的 Python 包,使用pip 安装即可。在终端输入:

  
pip install openai-whisper  

如果你的网络不稳定,可以使用国内镖像加速:

  
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple  

picture.image

如何在本地使用 openai-whisper 实现音频转文本?

📦 步骤 3:安装 PyTorch

Whisper 模型依赖 PyTorch 库,安装 PyTorch:

  • 无 GPU (CPU 环境):
  
pip install torch torchvision torchaudio  

  • 有 GPU (CUDA 环境): 前往 PyTorch 官网 查看 CUDA 版本对应的安装命令。

📈 3. 手动下载模型:解决无网环境

如果你的网络无法连接 OpenAI 下载模型,可以采用手动方式下载模型。

📏 下载地址:

前往 HuggingFace,下载对应模型的.pt 文件:

下载后,将.pt 文件存储在本地,如:

  
~/models/whisper/base.pt  


💲 安装步骤:指定本地模型

在 Python 脚本中,加载本地模型,使用以下代码:

  
import whisper  
  
# 指定本地 Whisper 模型路径  
model\_path = "~/models/whisper/base.pt"  # 修改为你的模型路径  
model = whisper.load\_model(model\_path)  
  
# 音频文件路径  
audio\_path = "audio.m4a"  
  
# 转录音频  
print("\ud83c\udfa7 开始音频转文字...")  
result = model.transcribe(audio\_path)  
  
# 输出转录文本  
print("\n\ud83c\udf89 转录结果如下:")  
print(result["text"])  
  
# 保存结果到文件  
with open("transcribed\_text.txt", "w", encoding="utf-8") as f:  
    f.write(result["text"])  
    print("\n\u2705 转录文本已保存至 transcribed\_text.txt")  


🔢 4. 开始运行代码

在终端中运行 Python 脚本:

  
python transcribe\_audio.py  

等待片刻,你会看到以下输出:

  
🎧 开始音频转文字...  
  
🎉 转录结果如下:  
<转录的文本内容>  
  
✅ 转录文本已保存至 transcribed\_text.txt  


📊 5. 性能与模型对比

| 模型 | 大小 | 速度 | 适用场景 | | --- | --- | --- | --- | | tiny | 39 MB | 非常快 | 快速测试、低资源设备 | | base | 74 MB | 快 | 小型项目 | | small | 244 MB | 中等 | 普通项目,效果较好 | | medium | 769 MB | 较慢 | 高精度需求 | | large | 1550 MB | 较慢 | 最高精度 |


☀️ 6. 总结与展望

通过以上步骤,你已经成功在本地环境中使用openai-whisper 模型实现了音频转文本 🎉。

未来,随着 Whisper 模型的不断优化,我们可以期待:

  • 更快的识别速度
  • 更高的转写出错率
  • 支持更多语言和口音

喜欢这个教程的朋友,快动手试试吧!💪🐯


🎁附加资源

  • Whisper GitHub 地址: OpenAI Whisper
  • PyTorch 官网: PyTorch Installation

👨‍💻猫头虎 将持续分享 AI 技术干货,关注我,学习路上不迷路 🚀

粉丝福利

👉更多信息 :有任何疑问或者需要进一步探讨的内容,欢迎点击文末名片获取更多信息。我是猫头虎,期待与您的交流! 🦉💬

🌐 第一板块:

picture.image

https://zhaimengpt1.kimi.asia/list

💳 第二板块:最稳定的AI全平台可支持平台


联系我与版权声明 📩

  • 联系方式
  • 微信: Libin9iOak
  • 公众号: 猫头虎技术团队
  • 版权声明 : 本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问 猫头虎的博客首页 。

点击✨⬇️下方名片⬇️✨,加入猫头虎AI共创社群,交流AI新时代变现的无限可能。一起探索科技的未来,共同成长。🚀

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论