如何训练lstm进行语音识别

Question

如何训练lstm进行语音识别

tensorflowspeech-recognitionkerasspeech-to-textlstm

5

我正在尝试为语音识别训练lstm模型，但不知道应该使用哪些训练数据和目标数据。我正在使用LibriSpeech数据集，其中包含音频文件和它们的转录文本。目标数据将是转录文本向量化。至于训练数据，我想使用每个音频文件的频率和时间（或MFCC特征）。如果这是正确的问题解决方法，那么训练数据/音频将是多个数组，我如何将这些数组输入到我的lstm模型中？我需要将它们向量化吗？

谢谢！

- JorgeC

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Wasi Ahmad · Accepted Answer

为了将演讲数据集放入LSTM模型中，您可以查看这篇文章-建立用于LSTM二元分类的语音数据集和数据准备部分。

作为一个很好的例子，您可以查看这篇文章-http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。这篇文章介绍了如何使用RNN-LSTM在Keras中预测向量序列。

我相信您也会发现这篇文章（https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras）非常有帮助。