无法使用Keras中的multi_gpu_model保存模型，请问如何解决？

Question

无法使用Keras中的multi_gpu_model保存模型，请问如何解决？

tensorflowkerasdistributed-computingmulti-gpukeras-2

7

升级到Keras 2.0.9后，我一直在使用multi_gpu_model实用工具，但我无法保存我的模型或最佳权重。

model.save('path')

我收到的错误是：

类型错误：无法对模块对象进行pickle处理

我猜测可能存在访问模型对象的问题。是否有解决此问题的方法？

- GhostRider

1

可能是Keras：加载由多个GPU生成的HDF5检查点权重的重复问题。 - weiji14

3个回答

8

解决方法

以下是经过修补的版本，保存时不会失败：

from keras.layers import Lambda, concatenate
from keras import Model
import tensorflow as tf

def multi_gpu_model(model, gpus):
  if isinstance(gpus, (list, tuple)):
    num_gpus = len(gpus)
    target_gpu_ids = gpus
  else:
    num_gpus = gpus
    target_gpu_ids = range(num_gpus)

  def get_slice(data, i, parts):
    shape = tf.shape(data)
    batch_size = shape[:1]
    input_shape = shape[1:]
    step = batch_size // parts
    if i == num_gpus - 1:
      size = batch_size - step * i
    else:
      size = step
    size = tf.concat([size, input_shape], axis=0)
    stride = tf.concat([step, input_shape * 0], axis=0)
    start = stride * i
    return tf.slice(data, start, size)

  all_outputs = []
  for i in range(len(model.outputs)):
    all_outputs.append([])

  # Place a copy of the model on each GPU,
  # each getting a slice of the inputs.
  for i, gpu_id in enumerate(target_gpu_ids):
    with tf.device('/gpu:%d' % gpu_id):
      with tf.name_scope('replica_%d' % gpu_id):
        inputs = []
        # Retrieve a slice of the input.
        for x in model.inputs:
          input_shape = tuple(x.get_shape().as_list())[1:]
          slice_i = Lambda(get_slice,
                           output_shape=input_shape,
                           arguments={'i': i,
                                      'parts': num_gpus})(x)
          inputs.append(slice_i)

        # Apply model on slice
        # (creating a model replica on the target device).
        outputs = model(inputs)
        if not isinstance(outputs, list):
          outputs = [outputs]

        # Save the outputs for merging back together later.
        for o in range(len(outputs)):
          all_outputs[o].append(outputs[o])

  # Merge outputs on CPU.
  with tf.device('/cpu:0'):
    merged = []
    for name, outputs in zip(model.output_names, all_outputs):
      merged.append(concatenate(outputs,
                                axis=0, name=name))
    return Model(model.inputs, merged)

您可以使用multi_gpu_model函数，在keras修复该bug之前。此外，在加载模型时，提供tensorflow模块对象非常重要：

model = load_model('multi_gpu_model.h5', {'tf': tf})

工作原理

问题出在multi_gpu_model函数中间的import tensorflow代码行：

def multi_gpu_model(model, gpus):
  ...
  import tensorflow as tf
  ...

这将为get_slice lambda函数创建一个闭包，其中包括gpu数量（没问题）和tensorflow模块（有问题）。模型保存尝试序列化所有层，包括调用get_slice的层，因为tf在闭包中，所以保存失败。

解决方案是将import移出multi_gpu_model，这样tf就成为全局对象，但仍然需要get_slice来工作。这解决了保存的问题，但在加载时必须明确提供tf。

- Maxim

感谢@Maxim提供的补丁。我想知道如果我使用multi_gpu_model(model, 1)是否能够正常工作。 - amaresh hiremani

0

这是需要一些额外工作的事情，需要将multi_gpu_model的权重加载到常规模型的权重中。

例如：

#1, instantiate your base model on a cpu
with tf.device("/cpu:0"):
    model = create_model()

#2, put your model to multiple gpus, say 2
multi_model = multi_gpu_model(model, 2)

#3, compile both models
model.compile(loss=your_loss, optimizer=your_optimizer(lr))
multi_model.compile(loss=your_loss, optimizer=your_optimizer(lr))

#4, train the multi gpu model
# multi_model.fit() or multi_model.fit_generator()

#5, save weights
model.set_weights(multi_model.get_weights())
model.save(filepath=filepath)

`

参考：https://github.com/fchollet/keras/issues/8123

- Badger Titan

很抱歉听到这个消息。你能分享一下你得到的新错误或者你正在使用的代码吗？ - Badger Titan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- GhostRider · Accepted Answer

说实话，最简单的方法是实际检查使用多GPU并行模型。

 parallel_model.summary()

并行模型就是在应用 multi_gpu 函数后的模型。这清晰地突出了实际的模型（我认为是倒数第二层--我现在不在电脑旁边）。然后，您可以使用此层的名称来保存模型。

 model = parallel_model.get_layer('sequential_1)

通常它被称为sequential_1，但如果您使用的是已发布的架构，则可能是“ googlenet”或“ alexnet”。您将从摘要中看到层的名称。

然后只需保存即可。

 model.save()

最大值方法虽然可行，但我认为有点过度。

注：您需要编译模型和并行模型。