在Keras中将两个层的输出相乘

6
我正在尝试在keras中实现一个神经网络,其设计如下:http://nlp.cs.rpi.edu/paper/AAAI15.pdf。该算法基本上有三个输入。输入2和输入3通过相同的权重矩阵W1相乘产生O2和O3。输入1通过W2相乘产生O1。然后,我们需要对O1 * O2和O1 * O3进行点积。我正在尝试在keras中实现这一点。
我首先想到使用keras Graph类,并将W1作为具有两个输入和两个输出的共享节点层。到目前为止还好。然后问题就出现了,即如何使用O1去点乘这两个输出。我尝试定义自定义函数:
   def layer_mult(X, Y):
       return K.dot(X * K.transpose(Y))

然后:

ntm.add_node(Lambda(layer_mult, output_shape = (1,1)), name = "ls_pos", inputs = ["O1", "O2"])
ntm.add_node(Lambda(layer_mult, output_shape = (1,1)), name = "ls_neg", inputs = ["O1", "O3"])

编译时出现问题,因为Keras只想给Lambda层提供一个输入:
   1045         func = types.FunctionType(func, globals())
   1046         if hasattr(self, 'previous'):
-> 1047             return func(self.previous.get_output(train))
   1048         else:
   1049             return func(self.input)

TypeError: layer_mult() takes exactly 2 arguments (1 given)

我认为一种替代方案可能是使用一个Merge类,它将dot作为允许合并的类型。但是,Merge类的输入层必须传递给构造函数。因此,似乎没有办法将共享节点的输出传递到Merge中以将Merge添加到Graph中。
如果我使用Sequential容器,我可以将它们馈送到Merge中。但是,那么就没有办法实现两个Sequential层需要共享相同的权重矩阵。
我考虑尝试将O1、O2和O3连接在一起成为单个向量作为输出层,然后在目标函数内执行乘法。但是,这将要求目标函数拆分其输入,这在keras中似乎不可能(相关的Theano函数没有传递到keras API)。
有人知道解决方案吗?
编辑:
我认为我取得了一些进展,因为我发现shared_node正在实现dot(即使它不在文档中)。所以我到了:
ntm = Graph()
ntm.add_input(name='g', input_shape=(300,))  #  Vector of 300 units, normally distributed around zero
ntm.add_node([pretrained bit], name = "lt", input = "g") # 300 * 128, output = (,128)
n_docs = 1000
ntm.add_input("d_pos", input_shape = (n_docs,)) # (,n_docs)
ntm.add_input("d_neg", input_shape = (n_docs,)) # (,n_docs)

ntm.add_shared_node(Dense(128, activation = "softmax", 
#                      weights = pretrained_W1, 
                      W_constraint = unitnorm(), 
                      W_regularizer = l2(0.001)
                      ), name = "ld", 
                    inputs = ["d_pos", "d_neg"],  
                    outputs = ["ld_pos", "ld_neg"], 
                    merge_mode=None) # n_docs * 128, output = (,128) * 2
ntm.add_shared_node(ActivityRegularization(0,0),   #ActivityRegularization is being used as a passthrough - the function of the node is to dot* its inputs
                    name = "ls_pos", 
                    inputs = ["lt", "d_pos"], 
                    merge_mode = 'dot')  # output = (,1)
ntm.add_shared_node(ActivityRegularization(0,0), 
                    name = "ls_neg", 
                    inputs = ["lt", "d_neg"], 
                    merge_mode = 'dot')  # output = (,1)
ntm.add_shared_node(ActivityRegularization(0,0), 
                    name = "summed", 
                    inputs = ["ls_pos", "ls_neg"], 
                    merge_mode = 'sum') # output = (,1)
ntm.add_node(ThresholdedReLU(0.5), 
             input = "summed", name = "loss") # output = (,1)
ntm.add_output(name = "loss_out", 
               input= "loss")
def obj(X, Y):
    return K.sum(Y)
ntm.compile(loss = {'loss_out' : obj},  optimizer = "sgd")

现在出现了以下错误:

>>> ntm.compile(loss = {'loss_out' : obj},  optimizer = "sgd")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "build/bdist.macosx-10.5-x86_64/egg/keras/models.py", line 602, in compile
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/advanced_activations.py", line 149, in get_output
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 117, in get_input
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 1334, in get_output
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 1282, in get_output_sum
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 1266, in get_output_at
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 730, in get_output
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 117, in get_input
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 1340, in get_output
  File "build/bdist.macosx-10.5-x86_64/egg/keras/layers/core.py", line 1312, in get_output_dot
  File "/Volumes/home500/anaconda/envs/[-]/lib/python2.7/site-packages/theano/tensor/var.py", line 360, in dimshuffle
    pattern)
  File "/Volumes/home500/anaconda/envs/[-]/lib/python2.7/site-packages/theano/tensor/elemwise.py", line 164, in __init__
    (input_broadcastable, new_order))
ValueError: ('You cannot drop a non-broadcastable dimension.', ((False, False, False, False), (0, 'x')))

如果你还没有这样做的话,我建议为此创建一个GitHub问题(尽管我不是Keras开发人员)。此外,考虑利用孪生层,使用共享权重矩阵两次生成O1? - Petr Baudis
嗨,你解决问题的方案了吗? - Bharat
2个回答

2
您可以使用以下代码段:

main_branch.add(Merge([branch_1, branch_2], mode = 'dot'))

主分支将合并branch_1和branch_2,合并模式为“点”模式。

我已经接受了答案,这样大家就不需要继续评论了。结果证明很容易,你的回答是一种解决方法的示例。 - Bob
我正在尝试类似的东西请看这里,但它根本不起作用。我所要做的就是将一个张量乘以一个标量。 - Stefan Falk

0

我也遇到了类似的问题。我想出了一个解决方案,但还没有尝试过。

  1. 使用卷积层对顺序模型A进行处理,该模型将Input2和Input3作为输入。这样,相同的卷积核将应用于Input2和Input3,即相同的权重W1。

  2. 将Input1作为另一个顺序模型B的输入。

  3. 使用合并层将A和B的输出合并起来。点积也可以通过合并层的自定义函数完成。


我目前正在尝试这个(请参见此处),但它并不起作用,因为我得到了一个TypeError,它说输出张量必须是Keras张量。 - Stefan Falk

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接