使用LSTM网络和Keras进行文本分类

Question

使用LSTM网络和Keras进行文本分类

3

我目前正在使用朴素贝叶斯算法进行文本分类。

我的最终目标是，如果算法决定该句子属于某个类别，则能够突出显示大型文本文档的某些部分。

朴素贝叶斯的结果很好，但我想为这个问题训练一个神经网络，因此我按照这个教程建立了Keras上的LSTM网络： http://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/。

对于我来说，所有这些概念现在都相当难以理解，所以如果您在我的代码中看到一些非常愚蠢的东西，请原谅。

1/ 准备训练数据

我有155个不同大小的已标记标签的句子。

所有这些标记过的句子都在一个名为training.csv的文件中：

8,9,1,2,3,4,5,6,7
16,15,4,6,10,11,12,13,14
17,18
22,19,20,21
24,20,21,23

（每个整数代表一个单词）

所有结果都在另一个label.csv文件中：

6,7,17,15,16,18,4,27,30,30,29,14,16,20,21 ...

我在trainings.csv文件中有155行数据，当然也有155个整数标签在label.csv文件中。

我的词典里有1038个单词。

2/ 代码

这是我的当前代码:

total_words = 1039

## fix random seed for reproducibility
numpy.random.seed(7)


datafile = open('training.csv', 'r')
datareader = csv.reader(datafile)
data = []
for row in datareader:
    data.append(row)



X = data;
Y = numpy.genfromtxt("labels.csv", dtype="int", delimiter=",")

max_sentence_length = 500

X_train = sequence.pad_sequences(X, maxlen=max_sentence_length)
X_test = sequence.pad_sequences(X, maxlen=max_sentence_length)


# create the model
embedding_vecor_length = 32
model = Sequential()
model.add(Embedding(total_words, embedding_vecor_length, input_length=max_sentence_length))
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())
model.fit(X_train, Y, epochs=3, batch_size=64)
# Final evaluation of the model
scores = model.evaluate(X_train, Y, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

这个模型从未收敛：

155/155 [==============================] - 4s - loss: 0.5694 - acc: 0.0000e+00     
Epoch 2/3
155/155 [==============================] - 3s - loss: -0.2561 - acc: 0.0000e+00     
Epoch 3/3
155/155 [==============================] - 3s - loss: -1.7268 - acc: 0.0000e+00

我希望得到24个标签中的一个作为结果，或者每个标签的概率列表。

我在这里做错了什么？

谢谢你的帮助！

- Vico

我不能评论，所以我会把这个作为答案留下来：这可能会有帮助 https://dev59.com/95ffa4cB1Zd3GeqP95Is - Mancento

1

问题在于您的分类（Y）不是二进制的。二进制交叉熵用于两个类别分类，其中Y值是二进制的。 - DJK

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Vico · Accepted Answer

感谢对我的问题提出了很好的评论，我已经更新了我的代码。

Y_train = numpy.genfromtxt("labels.csv", dtype="int", delimiter=",")
Y_test = numpy.genfromtxt("labels_test.csv", dtype="int", delimiter=",")
Y_train =  np_utils.to_categorical(Y_train)
Y_test = np_utils.to_categorical(Y_test)
max_review_length = 50

X_train = sequence.pad_sequences(X_train, maxlen=max_review_length)
X_test = sequence.pad_sequences(X_test, maxlen=max_review_length)


model = Sequential()
model.add(Embedding(top_words, 32, input_length=max_review_length))
model.add(LSTM(10, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(31, activation="softmax"))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])

model.fit(X_train, Y_train, epochs=100, batch_size=30)

我认为我可以调整LSTM大小（10或100）、epochs数量和batch size。

该模型的准确度非常低（40%）。但目前我认为这是因为我没有足够的数据（只有150个句子涵盖了24个标签）。

在获得更多数据之前，我将把这个项目放入待机模式。

如果有人有改进这个代码的想法，请随意评论！