36得票5回答
Luong注意力和Bahdanau注意力有什么区别?

这两个注意力机制被用于seq2seq模块中。这两种不同的注意力机制在这篇TensorFlow文档中被介绍为乘法和加法注意力机制。它们之间的区别是什么?

29得票3回答
如何理解Transformer中的Masked Multi-Head Attention

我目前正在学习Transformer的代码,但是我不理解解码器的掩码多头是什么意思。论文说这是为了防止你看到生成的单词,但是如果生成单词后面的单词还没有被生成,那么它们怎么能被看到呢? 我尝试阅读Transformer的代码(链接:https://github.com/Kyubyong/tr...

21得票2回答
多头自注意力中的att_mask和key_padding_mask有什么区别?

在PyTorch的MultiHeadAttention中,key_padding_mask和attn_mask有什么区别: key_padding_mask——如果提供了此参数,则键(key)中指定的填充元素将被注意力机制忽略。当给定二进制掩码并且值为True时,注意力层上相应的值将被忽略。...

19得票2回答
注意力层抛出 TypeError:Keras中的Permute层不支持掩码处理。

我一直在遵循这个帖子,以实现在我的LSTM模型上应用注意力层。 注意力层的代码:INPUT_DIM = 2 TIME_STEPS = 20 SINGLE_ATTENTION_VECTOR = False APPLY_ATTENTION_BEFORE_LSTM = False def atte...

17得票2回答
自编码器需要注意力机制吗?

我对自编码器中注意力机制的概念感到困惑。我认为我理解了在seq2seq翻译方面使用注意力的用法——在训练完组合的编码器和解码器之后,我们可以同时使用编码器和解码器创建(例如)语言翻译器。因为我们在生产中仍然使用解码器,所以我们可以利用注意力机制。 但是,如果自编码器的主要目标是生成输入向量的...

17得票3回答
如何使用Keras构建注意力模型?

我试图理解注意力模型并自己构建一个。经过多次搜索,我发现了 这个网站,其中包含一个用Keras编码的简单注意力模型。但是当我尝试在我的计算机上构建相同的模型时,它会给出多个参数错误。错误是因为在类 Attention 中传递的参数不匹配。在网站的注意力类中,它要求一个参数,但它使用两个参数初始...

17得票1回答
在Tensorflow 2.0中,在简单的LSTM层之上添加注意力

我有一个简单的网络,包括一个LSTM层和两个Dense层: model = tf.keras.Sequential() model.add(layers.LSTM(20, input_shape=(train_X.shape[1], train_X.shape[2]))) model.add...

16得票5回答
运行时错误: "torch.LongTensor" 类型的数据不支持 "exp" 操作。

我正在遵循这个教程:http://nlp.seas.harvard.edu/2018/04/03/attention.html,来实现“Attention Is All You Need” 论文中的Transformer模型。 然而我遇到了以下错误: RuntimeError: "exp" ...

14得票1回答
如何使用Keras-self-attention包可视化注意力LSTM?

我正在使用 keras-self-attention 在 KERAS 中实现注意力 LSTM。在训练模型后,如何可视化注意力部分?这是一个时间序列预测案例。from keras.models import Sequential from keras_self_attention import ...

14得票2回答
为什么在Transformer模型中需要用常数乘嵌入向量?

我正在学习应用Attention Is All You Need中提出的Transform模型,从tensorflow官方文档Transformer模型进行语言理解中学习。 正如位置编码部分所述: 由于这个模型不包含任何循环或卷积,因此添加了位置编码以为模型提供一些关于句子中单词相对...