如何准备语音识别数据集

5
我需要训练一个双向LSTM模型,以识别离散语音(从0到9的数字)。我已经录制了来自100位演讲者的语音。接下来应该怎么做?(假设我正在将它们分成包含一个数字的单个.wav文件)我将使用mfcc作为网络的特征。 此外,如果我要使用支持CTC(连接时序分类)的库,请问数据集的差异是什么?

你好。你的模型是开源的吗?这样我可以查看它吗? - Shadi
1个回答

4

您可以使用此处提供的答案/指导

根据您使用的LSTM库(pybrain、theano、keras)不同,您可以查阅它们的文档。

我建议使用Theano(Binary LSTM 链接)或者Keras(教程),因为它们相对简单易懂且有很好的文档支持。

希望这能对您有所帮助。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接