Tensorflow中损失函数减小，但训练集的准确率未改变。

Question

Tensorflow中损失函数减小，但训练集的准确率未改变。

tensorflowneural-networkdeep-learningconv-neural-networkloss

8

我正在尝试使用tensorflow实现一个简单的深度卷积神经网络性别分类器。我找到了这个模型并进行了实现。

def create_model_v2(data):

    cl1_desc = {'weights':weight_variable([7,7,3,96]), 'biases':bias_variable([96])}
    cl2_desc = {'weights':weight_variable([5,5,96,256]), 'biases':bias_variable([256])}
    cl3_desc = {'weights':weight_variable([3,3,256,384]), 'biases':bias_variable([384])}
    
    fc1_desc = {'weights':weight_variable([240000, 128]), 'biases':bias_variable([128])}
    fc2_desc = {'weights':weight_variable([128,128]), 'biases':bias_variable([128])}
    fc3_desc = {'weights':weight_variable([128,2]), 'biases':bias_variable([2])}
    
    cl1 = conv2d(data,cl1_desc['weights'] + cl1_desc['biases'])
    cl1 = tf.nn.relu(cl1)
    pl1 = max_pool_nxn(cl1,3,[1,2,2,1])
    lrm1 = tf.nn.local_response_normalization(pl1)
    
    cl2 = conv2d(lrm1, cl2_desc['weights'] + cl2_desc['biases'])
    cl2 = tf.nn.relu(cl2)
    pl2 = max_pool_nxn(cl2,3,[1,2,2,1])
    lrm2 = tf.nn.local_response_normalization(pl2)
    
    cl3 = conv2d(lrm2, cl3_desc['weights'] + cl3_desc['biases'])
    cl3 = tf.nn.relu(cl3)
    pl3 = max_pool_nxn(cl3,3,[1,2,2,1])
    
    fl = tf.contrib.layers.flatten(cl3)
    
    fc1 = tf.add(tf.matmul(fl, fc1_desc['weights']), fc1_desc['biases'])
    drp1 = tf.nn.dropout(fc1,0.5)
    fc2 = tf.add(tf.matmul(drp1, fc2_desc['weights']), fc2_desc['biases'])
    drp2 = tf.nn.dropout(fc2,0.5)
    fc3 = tf.add(tf.matmul(drp2, fc3_desc['weights']), fc3_desc['biases'])

    return fc3

需要注意的是，我已经完成了论文中描述的所有预处理步骤，但我的图像大小调整为100x100x3而不是277x277x3。

我定义逻辑回归对于女性为[0,1]，对于男性为[1,0]。

x = tf.placeholder('float',[None,100,100,3])
y = tf.placeholder('float',[None,2])

并且已经确定了以下的培训流程：

def train(x, hm_epochs, LR):
    #prediction = create_model_v2(x)
    prediction = create_model_v2(x)
    cost = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(logits  = prediction, labels = y) )
    optimizer = tf.train.AdamOptimizer(learning_rate=LR).minimize(cost)
    batch_size = 50
    correct = tf.equal(tf.argmax(prediction, 1), tf.argmax(y, 1))
    accuracy = tf.reduce_mean(tf.cast(correct, 'float'))
    print("hello")
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())

        for epoch in range(hm_epochs):
            epoch_loss = 0
            i = 0
            while i < (len(x_train)):
                start = i
                end = i + batch_size
                batch_x = x_train[start:end]
                batch_y = y_train[start:end]
                whatever, vigen = sess.run([optimizer, cost], feed_dict = {x:batch_x, y:batch_y})
                epoch_loss += vigen
                i+=batch_size

            print('Epoch',  epoch ,'loss:',epoch_loss/len(x_train))
            if (epoch+1) % 2 == 0:
                j = 0
                acc = []
                while j < len(x_test):
                    acc += [accuracy.eval(feed_dict = {x:x_test[j:j + 10], y:y_test[j:j+10]})]
                    j+= 10
                print ('accuracy after', epoch + 1, 'epochs on test set: ', sum(acc)/len(acc))

                j = 0
                acc = []
                while j < len(x_train):
                    acc += [accuracy.eval(feed_dict = {x:x_train[j:j + 10], y:y_train[j:j+10]})]
                    j+= 10
                print ('accuracy after', epoch, ' epochs on train set:', sum(acc)/len(acc))

以上代码的一半只是为了每两个epoch输出测试和训练准确率。

无论如何，损失在第一个epoch开始时很高

('Epoch', 0, 'loss:', 148.87030902462453)

('Epoch', 1, 'loss:', 0.01549744715988636)

('accuracy after', 2, 'epochs on test set: ', 0.33052011888510396)

('accuracy after', 1, ' epochs on train set:', 0.49607501227222384)

('Epoch', 2, 'loss:', 0.015493246909976005)

我错过了什么？

并且像这样继续保持训练集的准确性为0.5。

编辑：函数权重变量、conv2d和max_pool_nn是

def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)

def avg_pool_nxn(x, n, strides):
    return tf.nn.avg_pool(x, ksize=[1,n,n,1], strides = strides,padding = 'SAME')

def max_pool_nxn(x, n, strides):
    return tf.nn.max_pool(x, ksize=[1,n,n,1], strides = strides, padding = 'SAME')

def conv2d(x, W,stride = [1,1,1,1]):
    return tf.nn.conv2d(x, W, strides = stride, padding = 'SAME')

编辑2 - 问题已解决

问题与参数初始化有关。将权重初始化从正态分布更改为Xavier初始化后，准确度提高到了约86％。如果有人感兴趣，这是原始论文http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf，如果有人知道并愿意解释Xavier为什么适用于卷积神经网络和图像，请随时发布答案。

- Vahagn Tumanyan

这可能不会解决你的问题，但是关于你的代码有两点需要注意：在卷积层中，你将偏置加到权重上，并使用结果作为卷积层的权重。尝试使用tf.nn.bias_add(conv2d(data,cl1_desc['weights']), cl1_desc['biases'])代替。此外，你不想在实际预测/测试数据中使用dropout层。对于预测和测试数据，将keep_prob设置为1。 - aseipel

是的，这并没有解决问题。但我很好奇使用卷积后再用简单的加号添加偏置和使用tf.nn.bias_add函数是否有区别。 - Vahagn Tumanyan

bias_add将偏置值限制为1-D，并要求偏置值和它所添加到的值具有相同的类型。请参阅https://www.tensorflow.org/api_docs/python/tf/nn/bias_add获取更多信息。 - aseipel

问题与参数初始化有着非常紧密的关联，将权重初始化方式从正态分布改为Xavier初始化取得了惊人的效果，准确率最终达到了约86％。如果有人感兴趣，这是原始论文链接 http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf ，如果有人知道并愿意解释为什么Xavier初始化在卷积神经网络和图像方面效果好，请随时发表答案。 - Vahagn Tumanyan

你尝试过批量归一化吗？ - yhpark

没错，什么也没改变。 - Vahagn Tumanyan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- nlml · Accepted Answer

合适的权重初始化通常对于深度神经网络的训练至关重要。

Xavier初始化的目标是确保每个神经元输出的方差期望为1.0（请参见此处）。这通常基于您的输入被标准化为均值为0和方差为1的附加假设，因此也很重要。

对于ReLU单元来说，我认为He初始化实际上被认为是最佳实践。这需要从零均值高斯分布初始化，标准差为:

$\sqrt{\frac{2}{n}}$

其中n是输入单元的数量。有关其他激活函数的最佳实践，请参见Lasagne文档。

顺便提一下，批归一化通常可以减少模型性能对权重初始化的依赖。