如何堆叠LSTM层以分类语音文件

3
我一直在尝试使用基于LSTM的分类器对离散语音进行分类。我使用13个mfcc创建了特征向量。对于给定的文件,有一个[99, 13]的二维向量。在按照mnist_irnn示例后,我可以设置单层RNN来对我的语音文件进行分类。但现在我想向网络中添加更多的层。因此,我一直在尝试实现具有两个LSTM层和softmax层作为输出层的网络。在参考了这里的许多帖子之后,我可以按以下方式设置网络,在模型构建期间不会抛出任何异常。
from __future__ import print_function
import numpy as np

from keras.optimizers import SGD
from keras.utils.visualize_util import plot

np.random.seed(1337)  # for reproducibility
from keras.preprocessing import sequence
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation, TimeDistributedDense
from keras.layers.recurrent import LSTM
from SpeechResearch import loadData

batch_size = 5
hidden_units = 100
nb_classes = 10
print('Loading data...')
(X_train, y_train), (X_test, y_test) = loadData.load_mfcc(10, 2)

print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)
print('y_train shape:', y_train.shape)
print('y_test shape:', y_test.shape)
print('Build model...')

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)
print(batch_size, 99, X_train.shape[2])
print(X_train.shape[1:])
print(X_train.shape[2])
model = Sequential()

model.add(LSTM(output_dim=hidden_units, init='uniform', inner_init='uniform',
               forget_bias_init='one', activation='tanh', inner_activation='sigmoid', return_sequences=True,
               stateful=True, batch_input_shape=(batch_size, 99, X_train.shape[2])))
# model.add(Dropout(0.5))
model.add(LSTM(output_dim=hidden_units, init='uniform', inner_init='uniform',
               forget_bias_init='one', activation='tanh', inner_activation='sigmoid', return_sequences=True,
               stateful=True, input_length=X_train.shape[2]))

model.add(TimeDistributedDense(input_dim=hidden_units, output_dim=nb_classes))
model.add(Activation('softmax'))

# try using different optimizers and different optimizer configs
sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy', optimizer=sgd)

print("Train...")
model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=3, validation_data=(X_test, Y_test), show_accuracy=True)
score, acc = model.evaluate(X_test, Y_test,
                            batch_size=batch_size,
                            show_accuracy=True)
print('Test score:', score)
print('Test accuracy:', acc)

我一直在不同的点上尝试不同的值。(目前,我一直在使用一个小样本,因此值非常小)但是,现在在训练期间出现了异常。有一些尺寸不匹配。

Using Theano backend.
Loading data...
100 train sequences
20 test sequences
X_train shape: (100, 99, 13)
X_test shape: (20, 99, 13)
y_train shape: (100,)
y_test shape: (20,)
Build model...
5 99 13
(99, 13)
13
Train...
Train on 100 samples, validate on 20 samples
Epoch 1/3

Traceback (most recent call last):
  File "/home/udani/PycharmProjects/testResearch/SpeechResearch/lstmNetwork.py", line 54, in <module>
    model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=3, validation_data=(X_test, Y_test), show_accuracy=True)
  File "/usr/local/lib/python2.7/dist-packages/keras/models.py", line 581, in fit
    shuffle=shuffle, metrics=metrics)
  File "/usr/local/lib/python2.7/dist-packages/keras/models.py", line 239, in _fit
    outs = f(ins_batch)
  File "/usr/local/lib/python2.7/dist-packages/keras/backend/theano_backend.py", line 365, in __call__
    return self.function(*inputs)
  File "/home/udani/Documents/ResearchSW/Theano/theano/compile/function_module.py", line 786, in __call__
    allow_downcast=s.allow_downcast)
  File "/home/udani/Documents/ResearchSW/Theano/theano/tensor/type.py", line 177, in filter
    data.shape))
TypeError: ('Bad input argument to theano function with name "/usr/local/lib/python2.7/dist-packages/keras/backend/theano_backend.py:362"  at index 1(0-based)', 'Wrong number of dimensions: expected 3, got 2 with shape (5, 10).')

我希望知道我在这里做错了什么。我整天都在查看代码,但仍然无法找到维度不匹配的原因。

此外,如果有人能解释一下output_dim是什么意思,我将非常感激。(当我们在给定层中有n个节点时,它是否表示单个节点输出的向量形状?它应该等于下一层中的节点数量吗?)


Udani,为什么你使用不同的账户? - Nikolay Shmyrev
已经在https://dev59.com/pJLea4cB1Zd3GeqP6sm1#34667051进行了讨论。 - Nikolay Shmyrev
@NikolayShmyrev 嗯,我收到了有关禁止我的问题的警告。我担心他们会将我从Stack Overflow中封禁。因此,我请我的一个朋友代为发布。我没有其他人可以问这些问题。 - udani
我尝试按照您提到的方式设置我的 Y 集,但我无法弄清如何设置网络以与其提及的帧标签匹配。因此,我转而采用 keras 中 mnist 示例的多对一映射方法。 - udani
1个回答

1
你的问题出在 Y 维度上,输出应该是类似于 (100, 99, 10) 这样的一组序列输出,与特征相同,只是输出中只有1个。看起来你的 Y 向量不同。方法 to_categorical 不适用于序列,它需要一个向量。
或者,你可以输出一个单一的向量,并将其馈送到最后一个 LSTM 层中具有 return_sequences=False 的密集层中。
你也不需要状态网络。

你的意思是,不像在mnist示例中一样,使用一个标签来表示整个文件(多对一映射),而是需要为每个帧使用标签。每个帧的标签应以分类格式表示(如9的标签为0 0 0 0 0 0 0 0 0 1)?此外,我不必像上面的链接中提到的那样包含虚拟值吗? - udani
这是否意味着当我们取样(值为9)时,所有标签(对于99帧)都应与上述给出的相同分类标签一致? - udani

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接