跟着 Whisper 学说正宗河南话

技术

点击下方 卡片 ,关注“ 慢慢学AIGC ”

OpenAI Whisper 简介

Whisper 是一种用于语音识别和转录的机器学习模型,由 OpenAI 创建,并于 2022 年 9 月首次作为开源软件发布。 它能够转录英语和其他几种语言的语音,还能够将多种非英语语言翻译成英语。 OpenAI 声称,与以前的方法相比,其开发中使用的不同训练数据的组合提高了对口音、背景噪音和行话的识别能力。

OpenAI 训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面达到了接近人类水平的鲁棒性和准确性。

Whisper 是一个自动语音识别(ASR)系统,经过在网上收集的 68 万小时的多语言和多任务监督数据训练。OpenAI 展示了 使用如此大且多样的数据集可以提高对口音、背景噪音和技术语言的鲁棒性 。此外,它还能进行多语言转录,以及将这些语言翻译成英语。OpenAI 开源了模型权重和推理代码,以作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

picture.image

Whisper 架构是一种简单的端到端方法,作为一个编码器-解码器 Transformer 实现。输入音频被分成 30 秒的片段,转换成对数梅尔频谱图,然后传递到编码器中。解码器被训练来预测相应的文本字幕,并混合特殊标记,以指导单一模型执行诸如语言识别、短语级时间戳、多语言语音转录以及到英语的语音翻译等任务。

picture.image

其他现有方法通常使用较小、较为紧密配对的音频-文本训练数据集,或者使用广泛但未经监督的音频预训练。由于 Whisper 是在一个大且多样的数据集上训练的,并且没有微调到任何特定的一个,因此它在 LibriSpeech 性能上并没有击败那些专门的模型,LibriSpeech 是语音识别领域一个著名的竞争性基准。然而, 当衡量 Whisper 在许多不同数据集上的零样本性能时,我们发现它更加鲁棒,并且比那些模型错误率减少了 50%

Whisper 的音频数据集约三分之一是非英语的,它交替执行原语言转录或翻译成英语的任务。OpenAI 发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本任务中超越了监督的最新技术。

OpenAI 希望 Whisper 的高准确性和易用性将允许开发人员将语音接口添加到更多的应用程序中。查看论文【1】、模型卡【2】和代码【3】以了解更多细节并试用 Whisper。

模型参数和运行所需的显存容量以及相对运行速度如下表所示:

picture.image

注:large 有多个版本更新。2022 年 12 月,OpenAI 发布了改善的 large-v2 模型;2023 年 11 月,OpenAI 发布 large-v3 模型。

picture.image

OpenAI Whisper 识别方言

输入《5:20 AM》,河南方言 rap。

原版歌词:


          
我在5:20睡觉13:14准时起
          
主打个浪漫沉溺在爱河不上岸
          
爱你在本职里
          
碎花洋裙站在我的面前
          
那时候帅的就像闪电
          
外面的乌云深深浅浅
          
我说留在我房间吃碗面
          
然后你的双手搭在我的胸口
          
开始控制不住牵你手
          
每天下班后带你转郑州
          
我们一起走过的每个街口
          
死去的回忆开始攻击我
          
你的香味又袭来了
          
为谁被谁变成了傀儡
          
发现再也没有什么我所期待的
          
我感觉躲不掉像云朵躲不过风
          
我们被吹的越来越远变得如此陌生
          
乌云在阴天里偷偷的经过
          
怎么越遥远的看的越清澈
          
得了忘不掉记不清的病
          
我越难过这 beat越顶
          
众人皆醉我独醒
          
我看透人心百毒不侵
          
却再也看不清那张合影
          
我的心大部分时间是冰的
          
曾经和死神有过一*情
          
我是最热烈最纯粹的星座
          
脑子里除了金钱就是性
          
我在5:20睡觉13:14准时起
          
主打个浪漫沉溺在爱河不上岸
          
爱你在本职里
          
碎花洋裙站在我的面前
          
那时候帅的就像闪电
          
外面的乌云深深浅浅
          
我说留在我房间吃碗面
          
然后你的双手搭在我的胸口
          
开始控制不住牵你手
          
每天下班后带你转郑州
          
我们一起走过的每个街口
          
死去的回忆开始攻击我
          
你的香味又袭来了
          
为谁被谁变成了傀儡
          
发现再也没有什么我所期待的
          
没有任何期待没有意外
          
不会再轻易对谁产生依赖
          
屋里一片狼藉脑海中的亡妻
          
漫步在她给我留下的灰色地带
          
别用分开来证明分不开
          
别到结束了才认为真不该
          
Here's to the past, dance all night
          
俺是河南嘞河南洛阳嘞
          
从平顶山带你转到许昌
          
再从开封转到新乡
          
俺是河南嘞河南洛阳嘞
          
带你转信阳南阳濮阳安阳
          
做你嘞小太阳,
          
俺是河南嘞河南洛阳嘞
          
从鹤壁转到焦作三门峡到驻马店
          
带你转漯河
          
俺是河南嘞河南洛阳嘞
          
带你转周口带你转商丘
          
恁咋不早说咱俩某以后
      

使用开源 whisper 模型进行方言识别效果:


          
>whisper "刀酱 - 5:20AM.mp3"
          
100%|███████████████████████████████████████| 461M/461M [01:41<00:00, 4.76MiB/s]
          
Detecting language using up to the first 30 seconds. Use `--language` to specify the language
          
Detected language: Chinese
          
[00:00.000 --> 00:15.000] Zither Harp
          
[00:15.000 --> 00:16.600] 我在屋顛了是睡觉
          
[00:16.600 --> 00:18.400] 是三点十四准时切
          
[00:18.400 --> 00:19.600] 住到个老满城
          
[00:19.600 --> 00:21.000] 你在爱和不上安安
          
[00:21.000 --> 00:22.400] 爱你在奔驰里
          
[00:22.400 --> 00:24.200] 刷样去站在我的面前
          
[00:24.200 --> 00:26.200] 那手甩泪就要闪电
          
[00:26.200 --> 00:28.000] 外面的乌云伸前前
          
[00:28.000 --> 00:29.200] 握手留在我的房间
          
[00:29.200 --> 00:30.200] 吃碗面肉
          
[00:30.200 --> 00:32.200] 拧了双手打在我的胸口
          
[00:32.200 --> 00:33.400] 开始控制不住钱
          
[00:33.400 --> 00:34.800] 你手没得下班后
          
[00:34.800 --> 00:36.000] 带你转整周
          
[00:36.000 --> 00:38.000] 他们一起走过了每个街口
          
[00:38.000 --> 00:39.800] 死去了回忆开始攻击我
          
[00:39.800 --> 00:40.800] 拧了香味
          
[00:40.800 --> 00:41.800] 游戏来了
          
[00:41.800 --> 00:44.000] 为谁被谁编成了傀儡犯
          
[00:44.000 --> 00:46.400] 在没有什么我所期待的
          
[00:46.400 --> 00:48.400] 我感觉躲不掉
          
[00:48.400 --> 00:50.400] 像云朵躲不过风
          
[00:50.400 --> 00:52.600] 我们被吹得越来越远
          
[00:52.600 --> 00:54.000] 变了如此陌生
          
[00:54.000 --> 00:55.600] 乌云在阴天
          
[00:55.600 --> 00:57.200] 流头头的经过
          
[00:57.200 --> 00:59.200] 我们越遥远的看得越清澈
          
[00:59.200 --> 01:01.200] 得了望不掉即不清了病
          
[01:01.200 --> 01:03.200] 我也难过这逼越丁
          
[01:03.200 --> 01:05.200] 突然结醉我独行
          
[01:05.200 --> 01:06.800] 我看多人心不读不清
          
[01:06.800 --> 01:08.800] 却再看不清那张合影
          
[01:08.800 --> 01:10.800] 我的心大部分时间是冰了
          
[01:10.800 --> 01:12.800] 曾经和死神有过夜清
          
[01:12.800 --> 01:14.800] 我是最热烈最纯粹的星座
          
[01:14.800 --> 01:16.800] 脑子里出了金钱就是丁
          
[01:16.800 --> 01:18.800] 我在污点了是睡觉
          
[01:18.800 --> 01:20.800] 是散烈是死纯是切
          
[01:20.800 --> 01:22.800] 出大个浪漫趁你在爱和不伤
          
[01:22.800 --> 01:24.400] 爱你在分治里
          
[01:24.400 --> 01:26.400] 刷样去站在我的面前
          
[01:26.400 --> 01:27.600] 快乐就闪电
          
[01:27.600 --> 01:29.600] 外面了无运神牵牵
          
[01:29.600 --> 01:31.600] 握手留在我了房间吃碗面
          
[01:31.600 --> 01:33.600] 绕腻了双手戴在我的胸口
          
[01:33.600 --> 01:35.200] 开始控制不触牵你手
          
[01:35.200 --> 01:37.200] 没得下半好但你转整周
          
[01:37.200 --> 01:39.200] 在每一切都过了每个借口
          
[01:39.200 --> 01:41.200] 失去了回忆开始攻击我
          
[01:41.200 --> 01:43.200] 腻了香味游戏来了
          
[01:43.200 --> 01:45.200] 为谁被谁变成了傀儡犯
          
[01:45.200 --> 01:47.200] 再也没有什么我所期待的
          
[01:47.200 --> 01:49.200] 没有任何期待没有意外
          
[01:49.200 --> 01:50.200] 不会再轻易对视
          
[01:50.200 --> 01:52.200] 只剩依赖我留一片浪迹
          
[01:52.200 --> 01:53.200] 脑海中了王奇满
          
[01:53.200 --> 01:55.200] 不再带给我留下了灰色地带
          
[01:55.200 --> 01:57.000] 分开来证明分不开
          
[01:57.000 --> 01:59.000] 遇到结束了才认为真不改
          
[01:59.000 --> 02:03.000] Here's to the poppins all night
          
[02:03.000 --> 02:06.000] 二是河南雷 河南洛阳雷
          
[02:06.000 --> 02:08.000] 从平定山带你转到续长
          
[02:08.000 --> 02:10.000] 再从开封转到新乡
          
[02:10.000 --> 02:13.000] 二是河南雷 河南洛阳雷
          
[02:13.000 --> 02:15.000] 带你转信仰那样
          
[02:15.000 --> 02:18.000] 不扬岸阳做你的小太阳
          
[02:18.000 --> 02:21.000] 二是河南雷 河南洛阳雷
          
[02:21.000 --> 02:23.000] 从回避转到角座
          
[02:23.000 --> 02:25.000] 三门下到竹马店带你转
          
[02:25.800 --> 02:28.800] 二是河南雷 河南洛阳雷
          
[02:28.800 --> 02:30.800] 带你转舟口带你转上球
          
[02:30.800 --> 02:32.800] 能咋不早说咱俩某一号
      

跟着 whisper 转换的文本念一遍,你会发现河南话学起来还挺简单,去河南旅游前可以练练~~

picture.image

【1】论文:https://cdn.openai.com/papers/whisper.pdf

【2】代码:https://github.com/openai/whisper

【3】模型卡:https://github.com/openai/whisper/blob/main/model-card.md

【4】在线试玩:https://huggingface.co/spaces/openai/whisper


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论