反卷积解释
首先,反卷积 是 卷积层,只是用于不同的目的,即上采样(为什么有用在这篇论文中有解释)。
例如,这里有一个2x2
的输入图像(蓝色底部图像),将其上采样到4x4
(绿色顶部图像):
![deconvolution](https://istack.dev59.com/YyCu2.gif)
为了使它成为有效的卷积,首先对输入进行填充,使其变为6x6
,然后应用3x3
的滤波器而没有步幅。就像在普通的卷积层中一样,您可以选择不同的填充/步幅策略来产生所需的图像大小。
反向传播
现在应该清楚了,反卷积的反向传播是卷积层的反向传播的一个部分情况,具有特定的步幅和填充。我认为您已经完成了它,但这里是一个天真(而不是非常有效)的实现,适用于任何步幅和填充:
N, C, H, W = x.shape
F, C, HH, WW = w.shape
N, C, H_out, W_out = d_out.shape
x_pad = np.pad(x, pad_width=((0, 0), (0, 0), (pad, pad), (pad, pad)), mode='constant', constant_values=0)
db = np.sum(d_out, axis=(0, 2, 3))
dw = np.zeros_like(w)
dx = np.zeros_like(x_pad)
for n in xrange(N):
for f in xrange(F):
filter_w = w[f, :, :, :]
for out_i, i in enumerate(xrange(0, H, stride)):
for out_j, j in enumerate(xrange(0, W, stride)):
dw[f, :, :, :] += d_out[n, f , out_i, out_j] * x_pad[n, :, i:i+HH, j:j+WW]
dx[n, :, i:i+HH, j:j+WW] += filter_w * d_out[n, f, out_i, out_j]
dx = dx[:,:,1:H+1,1:W+1]
同样的操作可以使用
im2col
和
col2im
更高效地完成,但这只是一种实现细节。另一个有趣的事实是,卷积操作(对于数据和权重的反向传播)的反向传递再次是卷积,但使用空间翻转的滤波器。
以下是如何应用它(普通的SGD):
# backward_msg is the message from the next layer, usually ReLu
# conv_cache holds (x, w, b, conv_params), i.e. the info from the forward pass
backward_msg, dW, db = conv_backward(backward_msg, conv_cache)
w = w - learning_rate * dW
b = b - learning_rate * db
如您所见,这很简单,只需要理解您正在应用相同的卷积即可。