如何训练lstm进行语音识别

5
我正在尝试为语音识别训练lstm模型,但不知道应该使用哪些训练数据和目标数据。我正在使用LibriSpeech数据集,其中包含音频文件和它们的转录文本。目标数据将是转录文本向量化。至于训练数据,我想使用每个音频文件的频率和时间(或MFCC特征)。如果这是正确的问题解决方法,那么训练数据/音频将是多个数组,我如何将这些数组输入到我的lstm模型中?我需要将它们向量化吗?
谢谢!
1个回答

14
为了将演讲数据集放入LSTM模型中,您可以查看这篇文章-建立用于LSTM二元分类的语音数据集数据准备部分。
作为一个很好的例子,您可以查看这篇文章-http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。这篇文章介绍了如何使用RNN-LSTM在Keras中预测向量序列。
我相信您也会发现这篇文章(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)非常有帮助。

@user562,你能分享一下ASR模型的方法或代码来源吗?我正在为我的大学项目工作,但是没有得到太多关于它的信息。 - James

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接