得票数最多 'attention-model' 问题

标签列表

关联标签

36得票5回答

Luong注意力和Bahdanau注意力有什么区别？

这两个注意力机制被用于seq2seq模块中。这两种不同的注意力机制在这篇TensorFlow文档中被介绍为乘法和加法注意力机制。它们之间的区别是什么？

tensorflowdeep-learningnlpattention-model

29得票3回答

如何理解Transformer中的Masked Multi-Head Attention

我目前正在学习Transformer的代码，但是我不理解解码器的掩码多头是什么意思。论文说这是为了防止你看到生成的单词，但是如果生成单词后面的单词还没有被生成，那么它们怎么能被看到呢？我尝试阅读Transformer的代码（链接：https://github.com/Kyubyong/tr...

tensorflowdeep-learningtransformer-modelattention-model

21得票2回答

多头自注意力中的att_mask和key_padding_mask有什么区别？

在PyTorch的MultiHeadAttention中，key_padding_mask和attn_mask有什么区别： key_padding_mask——如果提供了此参数，则键（key）中指定的填充元素将被注意力机制忽略。当给定二进制掩码并且值为True时，注意力层上相应的值将被忽略。...

pythondeep-learningpytorchtransformer-modelattention-model

19得票2回答

注意力层抛出 TypeError：Keras中的Permute层不支持掩码处理。

我一直在遵循这个帖子，以实现在我的LSTM模型上应用注意力层。注意力层的代码：INPUT_DIM = 2 TIME_STEPS = 20 SINGLE_ATTENTION_VECTOR = False APPLY_ATTENTION_BEFORE_LSTM = False def atte...

pythontensorflowkeraslstmattention-model

17得票2回答

自编码器需要注意力机制吗？

我对自编码器中注意力机制的概念感到困惑。我认为我理解了在seq2seq翻译方面使用注意力的用法——在训练完组合的编码器和解码器之后，我们可以同时使用编码器和解码器创建（例如）语言翻译器。因为我们在生产中仍然使用解码器，所以我们可以利用注意力机制。但是，如果自编码器的主要目标是生成输入向量的...

lstmrecurrent-neural-networkautoencoderdimensionality-reductionattention-model

17得票3回答

如何使用Keras构建注意力模型？

我试图理解注意力模型并自己构建一个。经过多次搜索，我发现了这个网站，其中包含一个用Keras编码的简单注意力模型。但是当我尝试在我的计算机上构建相同的模型时，它会给出多个参数错误。错误是因为在类 Attention 中传递的参数不匹配。在网站的注意力类中，它要求一个参数，但它使用两个参数初始...

pythontensorflowkerasdeep-learningattention-model

17得票1回答

在Tensorflow 2.0中，在简单的LSTM层之上添加注意力

我有一个简单的网络，包括一个LSTM层和两个Dense层： model = tf.keras.Sequential() model.add(layers.LSTM(20, input_shape=(train_X.shape[1], train_X.shape[2]))) model.add...

pythontensorflowkeraslstmattention-model

16得票5回答

运行时错误: "torch.LongTensor" 类型的数据不支持 "exp" 操作。

我正在遵循这个教程：http://nlp.seas.harvard.edu/2018/04/03/attention.html，来实现“Attention Is All You Need” 论文中的Transformer模型。然而我遇到了以下错误： RuntimeError: "exp" ...

pytorchtensorattention-model

14得票1回答

如何使用Keras-self-attention包可视化注意力LSTM？

我正在使用 keras-self-attention 在 KERAS 中实现注意力 LSTM。在训练模型后，如何可视化注意力部分？这是一个时间序列预测案例。from keras.models import Sequential from keras_self_attention import ...

pythontensorflowkeraslstmattention-model

14得票2回答

为什么在Transformer模型中需要用常数乘嵌入向量？

我正在学习应用Attention Is All You Need中提出的Transform模型，从tensorflow官方文档Transformer模型进行语言理解中学习。正如位置编码部分所述：由于这个模型不包含任何循环或卷积，因此添加了位置编码以为模型提供一些关于句子中单词相对...

pythontensorflowdeep-learningattention-model