如何准备语音识别数据集

Question

5

我需要训练一个双向LSTM模型，以识别离散语音（从0到9的数字）。我已经录制了来自100位演讲者的语音。接下来应该怎么做？（假设我正在将它们分成包含一个数字的单个.wav文件）我将使用mfcc作为网络的特征。此外，如果我要使用支持CTC（连接时序分类）的库，请问数据集的差异是什么？

- udani

你好。你的模型是开源的吗？这样我可以查看它吗？ - Shadi

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nirbhay Tandon · Accepted Answer

根据您使用的LSTM库（pybrain、theano、keras）不同，您可以查阅它们的文档。

我建议使用Theano(Binary LSTM 链接)或者Keras(教程)，因为它们相对简单易懂且有很好的文档支持。

希望这能对您有所帮助。