如何使用Keras实现多标签分类神经网络

3
我正在尝试使用Keras实现一个神经网络,解决涉及多标签分类的问题。我知道解决这个问题的方法之一是将其转换为几个二元分类问题。我已经实现了其中一个,但是不确定如何处理其他的,主要是如何组合它们?我的数据集有5个输入变量和5个标签。通常,单个数据样本可能具有1-2个标签。很少有超过两个标签的情况。
以下是我的代码(感谢machinelearningmastery.com):
import numpy
import pandas
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline


# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)


# load dataset
dataframe = pandas.read_csv("Realdata.csv", header=None)
dataset = dataframe.values
# split into input (X) and output (Y) variables
X = dataset[:,0:5].astype(float)
Y = dataset[:,5]


# encode class values as integers
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)


# baseline model
def create_baseline():
    # create model
    model = Sequential()
    model.add(Dense(5, input_dim=5, kernel_initializer='normal', activation='relu'))
    model.add(Dense(1, kernel_initializer='normal', activation='sigmoid'))
    # Compile model
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    scores = model.evaluate(X, encoded_Y)
    print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
    #Make predictions....change the model.predict to whatever you want instead of X
    predictions = model.predict(X)
    # round predictions
    rounded = [round(x[0]) for x in predictions]
    print(rounded)
    return model
    

# evaluate model with standardized dataset
estimator = KerasClassifier(build_fn=create_baseline, epochs=100, batch_size=5, verbose=0)
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
results = cross_val_score(estimator, X, encoded_Y, cv=kfold)
print("Results: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))
1个回答

3
你提到的方法是多标签分类中的一对所有一对一策略。然而,在使用神经网络时,解决拥有5个标签的多标签分类问题最简单的方法是使用一个具有5个输出节点的单一模型。使用keras实现如下:
model = Sequential()
model.add(Dense(5, input_dim=5, kernel_initializer='normal', activation='relu'))
model.add(Dense(5, kernel_initializer='normal', activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='sgd')

你可以将训练标签提供为长度为5的二进制编码向量。例如,对应于类2和3的示例将具有标签[0 1 1 0 0]

感谢您的快速回答,非常感激。我得到了83.17%的准确率(只要使用kFold进行估计仍然合适)。 - user2229838

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接