使用不同尺寸的图像进行Tensorflow卷积神经网络

12

我正在尝试创建一个深度CNN,可以分类图像中的每个像素。我正在复制下面的图片中的架构,该图片来自于这篇论文。在论文中提到使用反卷积以便任何大小的输入都可以接受。这可以从下面的图片中看出。

Github代码库

enter image description here

目前,我已经硬编码了模型,使其接受大小为32x32x7的图像,但我想接受任何大小的输入。我需要对我的代码进行哪些更改才能接受可变大小的输入?

 x = tf.placeholder(tf.float32, shape=[None, 32*32*7])
 y_ = tf.placeholder(tf.float32, shape=[None, 32*32*7, 3])
 ...
 DeConnv1 = tf.nn.conv3d_transpose(layer1, filter = w, output_shape = [1,32,32,7,1], strides = [1,2,2,2,1], padding = 'SAME')
 ...
 final = tf.reshape(final, [1, 32*32*7])
 W_final = weight_variable([32*32*7,32*32*7,3])
 b_final = bias_variable([32*32*7,3])
 final_conv = tf.tensordot(final, W_final, axes=[[1], [1]]) + b_final
2个回答

9

动态占位符

TensorFlow允许在占位符中有多个动态(即None)维度。引擎在构建图时无法确保正确性,因此客户端负责提供正确的输入,但它提供了很大的灵活性。

所以我从...

x = tf.placeholder(tf.float32, shape=[None, N*M*P])
y_ = tf.placeholder(tf.float32, shape=[None, N*M*P, 3])
...
x_image = tf.reshape(x, [-1, N, M, P, 1])

到...

# Nearly all dimensions are dynamic
x_image = tf.placeholder(tf.float32, shape=[None, None, None, None, 1])
label = tf.placeholder(tf.float32, shape=[None, None, 3])

既然您打算将输入重塑为5D,为什么不从一开始就在x_image中使用5D呢?此时,label的第二维是任意的,但我们向tensorflow承诺它将与x_image匹配。

转置卷积中的动态形状

接下来,tf.nn.conv3d_transpose的好处在于其输出形状可以是动态的。因此,可以改为:

# Hard-coded output shape
DeConnv1 = tf.nn.conv3d_transpose(layer1, w, output_shape=[1,32,32,7,1], ...)

...你可以这样做:

# Dynamic output shape
DeConnv1 = tf.nn.conv3d_transpose(layer1, w, output_shape=tf.shape(x_image), ...)

这样,转置卷积可以应用于任何图像,并且结果将采用在运行时实际传递的x_image的形状。
请注意,x_image的静态形状为(?, ?, ?, ?, 1)
全卷积网络
整个网络都是卷积的,包括最后的密集层。密集层必须静态地定义其维度,这迫使整个神经网络固定输入图像的尺寸。
幸运的是,Springenberg等人在"Striving for Simplicity: The All Convolutional Net"论文中描述了一种用CONV层替换FC层的方法。我将使用具有3个1x1x1过滤器的卷积(也请参见this question)。
final_conv = conv3d_s1(final, weight_variable([1, 1, 1, 1, 3]))
y = tf.reshape(final_conv, [-1, 3])

如果我们确保finalDeConnv1(和其他)具有相同的维度,它将使y的形状正确:[-1,N * M * P,3]

将所有内容组合在一起

您的网络非常大,但所有反卷积基本上都遵循相同的模式,因此我已经简化了我的概念验证代码,只使用一个反卷积。目标只是展示能够处理任意大小图像的网络类型。最后一点:图像尺寸可以在批次之间变化,但在一个批次内必须相同。
完整代码:
sess = tf.InteractiveSession()

def conv3d_dilation(tempX, tempFilter):
  return tf.layers.conv3d(tempX, filters=tempFilter, kernel_size=[3, 3, 1], strides=1, padding='SAME', dilation_rate=2)

def conv3d(tempX, tempW):
  return tf.nn.conv3d(tempX, tempW, strides=[1, 2, 2, 2, 1], padding='SAME')

def conv3d_s1(tempX, tempW):
  return tf.nn.conv3d(tempX, tempW, strides=[1, 1, 1, 1, 1], padding='SAME')

def weight_variable(shape):
  initial = tf.truncated_normal(shape, stddev=0.1)
  return tf.Variable(initial)

def bias_variable(shape):
  initial = tf.constant(0.1, shape=shape)
  return tf.Variable(initial)

def max_pool_3x3(x):
  return tf.nn.max_pool3d(x, ksize=[1, 3, 3, 3, 1], strides=[1, 2, 2, 2, 1], padding='SAME')

x_image = tf.placeholder(tf.float32, shape=[None, None, None, None, 1])
label = tf.placeholder(tf.float32, shape=[None, None, 3])

W_conv1 = weight_variable([3, 3, 1, 1, 32])
h_conv1 = conv3d(x_image, W_conv1)
# second convolution
W_conv2 = weight_variable([3, 3, 4, 32, 64])
h_conv2 = conv3d_s1(h_conv1, W_conv2)
# third convolution path 1
W_conv3_A = weight_variable([1, 1, 1, 64, 64])
h_conv3_A = conv3d_s1(h_conv2, W_conv3_A)
# third convolution path 2
W_conv3_B = weight_variable([1, 1, 1, 64, 64])
h_conv3_B = conv3d_s1(h_conv2, W_conv3_B)
# fourth convolution path 1
W_conv4_A = weight_variable([3, 3, 1, 64, 96])
h_conv4_A = conv3d_s1(h_conv3_A, W_conv4_A)
# fourth convolution path 2
W_conv4_B = weight_variable([1, 7, 1, 64, 64])
h_conv4_B = conv3d_s1(h_conv3_B, W_conv4_B)
# fifth convolution path 2
W_conv5_B = weight_variable([1, 7, 1, 64, 64])
h_conv5_B = conv3d_s1(h_conv4_B, W_conv5_B)
# sixth convolution path 2
W_conv6_B = weight_variable([3, 3, 1, 64, 96])
h_conv6_B = conv3d_s1(h_conv5_B, W_conv6_B)
# concatenation
layer1 = tf.concat([h_conv4_A, h_conv6_B], 4)
w = tf.Variable(tf.constant(1., shape=[2, 2, 4, 1, 192]))
DeConnv1 = tf.nn.conv3d_transpose(layer1, filter=w, output_shape=tf.shape(x_image), strides=[1, 2, 2, 2, 1], padding='SAME')

final = DeConnv1
final_conv = conv3d_s1(final, weight_variable([1, 1, 1, 1, 3]))
y = tf.reshape(final_conv, [-1, 3])
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=label, logits=y))

print('x_image:', x_image)
print('DeConnv1:', DeConnv1)
print('final_conv:', final_conv)

def try_image(N, M, P, B=1):
  batch_x = np.random.normal(size=[B, N, M, P, 1])
  batch_y = np.ones([B, N * M * P, 3]) / 3.0

  deconv_val, final_conv_val, loss = sess.run([DeConnv1, final_conv, cross_entropy],
                                              feed_dict={x_image: batch_x, label: batch_y})
  print(deconv_val.shape)
  print(final_conv.shape)
  print(loss)
  print()

tf.global_variables_initializer().run()
try_image(32, 32, 7)
try_image(16, 16, 3)
try_image(16, 16, 3, 2)

我从未能够让这个解决方案正常工作。答案的每个部分都有效,除了“全卷积网络”部分。首先,我不认为那是一个密集层。当我使用您提供的该部分的解决方案时,我会收到不兼容形状的错误。 - Devin Haslam
1
tf 1.5 没有错误。答案中的代码几乎完整,只缺少导入部分。try_image 对我有效。而且我从未说过它是一个密集层。它是密集层的替代品 - Maxim
很抱歉质疑你的答案。对于任何阅读此内容的人来说,这确实有效。谢谢。 - Devin Haslam
@DevinHaslam 抱歉回复晚了,我错过了之前的讨论。问题是什么? - Maxim
1x1x1x1x3卷积会导致一些问题。在该卷积中的三个权重之一将始终过小,无法预测该类。请查看此图像以演示问题:https://imgur.com/a/OjDRB - Devin Haslam

-1
理论上是可能的。您需要将输入和标签图像占位符的图像大小设置为none,并让图形从输入数据动态推断图像大小。
但是,在定义图形时必须小心。需要使用tf.shape而不是tf.get_shape()。前者仅在您session.run时动态推断形状,后者可以在定义图形时获取形状。但是当输入大小设置为none时,后者不会得到真正的重塑(可能只返回None)。
并且为了使事情变得复杂,如果您使用tf.layers.conv2dupconv2d,有时这些高级函数不喜欢tf.shape,因为它们似乎假定在图形构建期间可用形状信息。
我希望我有更好的工作示例来展示上面的要点。我会把这个答案作为一个占位符,并在有机会时回来添加更多内容。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接