点击下方 卡片 ,关注“ 慢慢学AIGC ”
OpenAI Whisper 简介
Whisper 是一种用于语音识别和转录的机器学习模型,由 OpenAI 创建,并于 2022 年 9 月首次作为开源软件发布。 它能够转录英语和其他几种语言的语音,还能够将多种非英语语言翻译成英语。 OpenAI 声称,与以前的方法相比,其开发中使用的不同训练数据的组合提高了对口音、背景噪音和行话的识别能力。
OpenAI 训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面达到了接近人类水平的鲁棒性和准确性。
Whisper 是一个自动语音识别(ASR)系统,经过在网上收集的 68 万小时的多语言和多任务监督数据训练。OpenAI 展示了 使用如此大且多样的数据集可以提高对口音、背景噪音和技术语言的鲁棒性 。此外,它还能进行多语言转录,以及将这些语言翻译成英语。OpenAI 开源了模型权重和推理代码,以作为构建有用应用程序和进一步研究鲁棒语音处理的基础。
Whisper 架构是一种简单的端到端方法,作为一个编码器-解码器 Transformer 实现。输入音频被分成 30 秒的片段,转换成对数梅尔频谱图,然后传递到编码器中。解码器被训练来预测相应的文本字幕,并混合特殊标记,以指导单一模型执行诸如语言识别、短语级时间戳、多语言语音转录以及到英语的语音翻译等任务。
其他现有方法通常使用较小、较为紧密配对的音频-文本训练数据集,或者使用广泛但未经监督的音频预训练。由于 Whisper 是在一个大且多样的数据集上训练的,并且没有微调到任何特定的一个,因此它在 LibriSpeech 性能上并没有击败那些专门的模型,LibriSpeech 是语音识别领域一个著名的竞争性基准。然而, 当衡量 Whisper 在许多不同数据集上的零样本性能时,我们发现它更加鲁棒,并且比那些模型错误率减少了 50% 。
Whisper 的音频数据集约三分之一是非英语的,它交替执行原语言转录或翻译成英语的任务。OpenAI 发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本任务中超越了监督的最新技术。
OpenAI 希望 Whisper 的高准确性和易用性将允许开发人员将语音接口添加到更多的应用程序中。查看论文【1】、模型卡【2】和代码【3】以了解更多细节并试用 Whisper。
模型参数和运行所需的显存容量以及相对运行速度如下表所示:
注:large 有多个版本更新。2022 年 12 月,OpenAI 发布了改善的 large-v2 模型;2023 年 11 月,OpenAI 发布 large-v3 模型。
OpenAI Whisper 识别方言
输入《5:20 AM》,河南方言 rap。
原版歌词:
我在5:20睡觉13:14准时起
主打个浪漫沉溺在爱河不上岸
爱你在本职里
碎花洋裙站在我的面前
那时候帅的就像闪电
外面的乌云深深浅浅
我说留在我房间吃碗面
然后你的双手搭在我的胸口
开始控制不住牵你手
每天下班后带你转郑州
我们一起走过的每个街口
死去的回忆开始攻击我
你的香味又袭来了
为谁被谁变成了傀儡
发现再也没有什么我所期待的
我感觉躲不掉像云朵躲不过风
我们被吹的越来越远变得如此陌生
乌云在阴天里偷偷的经过
怎么越遥远的看的越清澈
得了忘不掉记不清的病
我越难过这 beat越顶
众人皆醉我独醒
我看透人心百毒不侵
却再也看不清那张合影
我的心大部分时间是冰的
曾经和死神有过一*情
我是最热烈最纯粹的星座
脑子里除了金钱就是性
我在5:20睡觉13:14准时起
主打个浪漫沉溺在爱河不上岸
爱你在本职里
碎花洋裙站在我的面前
那时候帅的就像闪电
外面的乌云深深浅浅
我说留在我房间吃碗面
然后你的双手搭在我的胸口
开始控制不住牵你手
每天下班后带你转郑州
我们一起走过的每个街口
死去的回忆开始攻击我
你的香味又袭来了
为谁被谁变成了傀儡
发现再也没有什么我所期待的
没有任何期待没有意外
不会再轻易对谁产生依赖
屋里一片狼藉脑海中的亡妻
漫步在她给我留下的灰色地带
别用分开来证明分不开
别到结束了才认为真不该
Here's to the past, dance all night
俺是河南嘞河南洛阳嘞
从平顶山带你转到许昌
再从开封转到新乡
俺是河南嘞河南洛阳嘞
带你转信阳南阳濮阳安阳
做你嘞小太阳,
俺是河南嘞河南洛阳嘞
从鹤壁转到焦作三门峡到驻马店
带你转漯河
俺是河南嘞河南洛阳嘞
带你转周口带你转商丘
恁咋不早说咱俩某以后
使用开源 whisper 模型进行方言识别效果:
>whisper "刀酱 - 5:20AM.mp3"
100%|███████████████████████████████████████| 461M/461M [01:41<00:00, 4.76MiB/s]
Detecting language using up to the first 30 seconds. Use `--language` to specify the language
Detected language: Chinese
[00:00.000 --> 00:15.000] Zither Harp
[00:15.000 --> 00:16.600] 我在屋顛了是睡觉
[00:16.600 --> 00:18.400] 是三点十四准时切
[00:18.400 --> 00:19.600] 住到个老满城
[00:19.600 --> 00:21.000] 你在爱和不上安安
[00:21.000 --> 00:22.400] 爱你在奔驰里
[00:22.400 --> 00:24.200] 刷样去站在我的面前
[00:24.200 --> 00:26.200] 那手甩泪就要闪电
[00:26.200 --> 00:28.000] 外面的乌云伸前前
[00:28.000 --> 00:29.200] 握手留在我的房间
[00:29.200 --> 00:30.200] 吃碗面肉
[00:30.200 --> 00:32.200] 拧了双手打在我的胸口
[00:32.200 --> 00:33.400] 开始控制不住钱
[00:33.400 --> 00:34.800] 你手没得下班后
[00:34.800 --> 00:36.000] 带你转整周
[00:36.000 --> 00:38.000] 他们一起走过了每个街口
[00:38.000 --> 00:39.800] 死去了回忆开始攻击我
[00:39.800 --> 00:40.800] 拧了香味
[00:40.800 --> 00:41.800] 游戏来了
[00:41.800 --> 00:44.000] 为谁被谁编成了傀儡犯
[00:44.000 --> 00:46.400] 在没有什么我所期待的
[00:46.400 --> 00:48.400] 我感觉躲不掉
[00:48.400 --> 00:50.400] 像云朵躲不过风
[00:50.400 --> 00:52.600] 我们被吹得越来越远
[00:52.600 --> 00:54.000] 变了如此陌生
[00:54.000 --> 00:55.600] 乌云在阴天
[00:55.600 --> 00:57.200] 流头头的经过
[00:57.200 --> 00:59.200] 我们越遥远的看得越清澈
[00:59.200 --> 01:01.200] 得了望不掉即不清了病
[01:01.200 --> 01:03.200] 我也难过这逼越丁
[01:03.200 --> 01:05.200] 突然结醉我独行
[01:05.200 --> 01:06.800] 我看多人心不读不清
[01:06.800 --> 01:08.800] 却再看不清那张合影
[01:08.800 --> 01:10.800] 我的心大部分时间是冰了
[01:10.800 --> 01:12.800] 曾经和死神有过夜清
[01:12.800 --> 01:14.800] 我是最热烈最纯粹的星座
[01:14.800 --> 01:16.800] 脑子里出了金钱就是丁
[01:16.800 --> 01:18.800] 我在污点了是睡觉
[01:18.800 --> 01:20.800] 是散烈是死纯是切
[01:20.800 --> 01:22.800] 出大个浪漫趁你在爱和不伤
[01:22.800 --> 01:24.400] 爱你在分治里
[01:24.400 --> 01:26.400] 刷样去站在我的面前
[01:26.400 --> 01:27.600] 快乐就闪电
[01:27.600 --> 01:29.600] 外面了无运神牵牵
[01:29.600 --> 01:31.600] 握手留在我了房间吃碗面
[01:31.600 --> 01:33.600] 绕腻了双手戴在我的胸口
[01:33.600 --> 01:35.200] 开始控制不触牵你手
[01:35.200 --> 01:37.200] 没得下半好但你转整周
[01:37.200 --> 01:39.200] 在每一切都过了每个借口
[01:39.200 --> 01:41.200] 失去了回忆开始攻击我
[01:41.200 --> 01:43.200] 腻了香味游戏来了
[01:43.200 --> 01:45.200] 为谁被谁变成了傀儡犯
[01:45.200 --> 01:47.200] 再也没有什么我所期待的
[01:47.200 --> 01:49.200] 没有任何期待没有意外
[01:49.200 --> 01:50.200] 不会再轻易对视
[01:50.200 --> 01:52.200] 只剩依赖我留一片浪迹
[01:52.200 --> 01:53.200] 脑海中了王奇满
[01:53.200 --> 01:55.200] 不再带给我留下了灰色地带
[01:55.200 --> 01:57.000] 分开来证明分不开
[01:57.000 --> 01:59.000] 遇到结束了才认为真不改
[01:59.000 --> 02:03.000] Here's to the poppins all night
[02:03.000 --> 02:06.000] 二是河南雷 河南洛阳雷
[02:06.000 --> 02:08.000] 从平定山带你转到续长
[02:08.000 --> 02:10.000] 再从开封转到新乡
[02:10.000 --> 02:13.000] 二是河南雷 河南洛阳雷
[02:13.000 --> 02:15.000] 带你转信仰那样
[02:15.000 --> 02:18.000] 不扬岸阳做你的小太阳
[02:18.000 --> 02:21.000] 二是河南雷 河南洛阳雷
[02:21.000 --> 02:23.000] 从回避转到角座
[02:23.000 --> 02:25.000] 三门下到竹马店带你转
[02:25.800 --> 02:28.800] 二是河南雷 河南洛阳雷
[02:28.800 --> 02:30.800] 带你转舟口带你转上球
[02:30.800 --> 02:32.800] 能咋不早说咱俩某一号
跟着 whisper 转换的文本念一遍,你会发现河南话学起来还挺简单,去河南旅游前可以练练~~
【1】论文:https://cdn.openai.com/papers/whisper.pdf
【2】代码:https://github.com/openai/whisper
【3】模型卡:https://github.com/openai/whisper/blob/main/model-card.md
【4】在线试玩:https://huggingface.co/spaces/openai/whisper
点击下方 卡片 ,关注“ 慢慢学AIGC ”