9得票1回答
多头注意力机制attention_mask [Keras, Tensorflow]示例

我正在努力为MultiHeadAttention层掩盖我的输入。我正在使用Keras文档中自注意力的Transformer块。迄今为止,我找不到任何在线示例代码,如果有人能给我提供一段代码片段,我将不胜感激。 来自此页面的Transformer块: class TransformerBlo...

9得票1回答
OpenAI GPT-3 API:微调一个已经微调的模型?

OpenAI的fine-tune API中model属性的文档有点令人困惑: model 要进行fine-tune的基础模型名称。您可以选择其中之一:"ada"、"babbage"、"curie"、"davinci"或2022-04-21后创建的经过fine-tune的模型。 我的问题...

9得票2回答
如何在Transformer训练中实现teacher-forcing?

在Tensorflow的教程这里中,他们提到正在使用teacher-forcing进行训练。据我所知,teacher-forcing涉及将目标输出馈送到模型中,以便它更快地收敛。那么我很好奇这是如何实现的?真正的目标是tar_real,据我所见,它只用于计算损失和准确性。我很好奇这段代码是如何...

9得票1回答
如何使用BertForMaskedLM或BertModel计算句子的困惑度?

我想使用BertForMaskedLM或BertModel来计算一个句子的困惑度,所以我编写了以下代码: import numpy as np import torch import torch.nn as nn from transformers import BertTokenizer,...

9得票1回答
Sklearn管道:如何传递参数到自定义转换器?

我的 sklearn 管道中有一个自定义的 Transformer,我想知道如何向我的 Transformer 传递参数: 在下面的代码中,您可以看到我在我的 Transformer 中使用了一个字典 "weight"。我希望不在我的 Transformer 中定义此字典,而是从管道中传递它...

9得票3回答
只能将模型传递给“fit”函数的“training”和“call”的第一个参数作为位置参数,发现……

我正在尝试在另一个数据集上遵循此代码:https://www.tensorflow.org/tutorials/text/transformer#encoder_layer。我需要编译和拟合模型。然而,在运行时我遇到了这个错误,但是我不知道它的意思: Models passed to `f...

9得票1回答
如何在多维序列到序列问题中使用PyTorch Transformer?

我正在尝试使用Transformer模型进行seq2seq。我的输入和输出具有相同的形状(torch.Size([499, 128]),其中499是序列长度,128是特征数)。 我的输入如下图所示: 我的输出如下图所示: 我的训练循环如下: for batch in tqd...

8得票1回答
如何使用HuggingFace遮蔽语言模型计算一个句子的困惑度?

我有几个掩码语言模型(主要是Bert、Roberta、Albert、Electra)。我也有一个句子数据集。我该如何得到每个句子的困惑度? 从huggingface文档这里提到,困惑度“对于像BERT这样的掩码语言模型来说并没有明确定义”,尽管我仍然看到人们在某种程度上对其进行计算。 例如...

8得票2回答
BERT输出不确定

BERT的输出是不确定的。当我输入相同的内容时,我期望输出值是确定的,但是我的BERT模型的值是变化的。听起来有些奇怪,同样的值会被返回两次。也就是说,一旦出现另一个值,相同的值就会重复出现。 我该如何让输出值确定性呢? 下面是我的代码片段。 我使用了由Huggingface实现的PyT...

8得票2回答
尝试通过在Laravel 5.2中实现ArraySerializer来删除Fractal中的数据

我已经使用标准流程使API工作,但我想从JSON输出中删除data命名空间。我发现我需要实现ArraySerializer,我已经阅读了Fractal文档,但我无法确定在Laravel 5.2中需要添加它的位置。 我找到了this answer,但我只是得到与我注释掉的代码行相同的输出。 ...