为了账号安全,请及时绑定邮箱和手机立即绑定

在pytorch中为ASR加载librispeech

在pytorch中为ASR加载librispeech

慕田峪4524236 2021-04-05 12:19:49
我最近正在研究使用神经网络和CTC损失训练自动语音识别机。但是我要做的第一件事是准备用于训练模型的数据。由于Librispeech包含大量数据,因此一开始我将使用一个名为“ Mini LibriSpeech ASR语料库”的子集。(http://www.openslr.org/31/)。我也正在使用Warn-ctc的SeanNaren Pytorch绑定(https://github.com/SeanNaren/warp-ctc)。读取音频文件及其对应的成绩单后,我使用Spicy包来计算每个音频文件的声谱图。当我将频谱图馈送到卷积层以进行特征提取时,就会出现问题。每个频谱图的长度与其他频谱图的长度不同。在对该问题进行了更多搜索之后,我发现我应该将特定数量的帧传递给网络,但是要达到此目的,我需要用相应的字符(也包含空白符号)标记声音文件的每个帧。有没有办法在python中做到这一点?
查看完整描述

2 回答

?
Smart猫小萌

TA贡献1911条经验 获得超7个赞

动态计算中将pytorch nn与频谱图集成的最简单方法是nnAudio。


查看完整回答
反对 回复 2021-04-13
  • 2 回答
  • 0 关注
  • 322 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号