8得票1回答
PyTorch nn.Transformer 学会复制目标

我正在尝试使用 nn.Transformer 类训练一个 Transformer Seq2Seq 模型。我相信我的实现是错误的,因为当我训练它时,它似乎过快地适应了数据,并且在推理时经常重复输出。这似乎是解码器中掩码的问题,当我移除目标掩码时,训练性能并没有变化。这使我相信我正在错误地处理目标...

7得票1回答
Huggingface 分词器中的 padding 是如何工作的?

我尝试着按照分词示例进行操作: tokenizer = BertTokenizer.from_pretrained(MODEL_TYPE, do_lower_case=True) sent = "I hate this. Not that.", _tokenized = to...

7得票2回答
如何获取Huggingface Transformer模型预测[零样本分类]的SHAP值?

给定一个 Huggingface 的零样本分类任务,内容如下: from transformers import pipeline classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnl...

7得票2回答
自然语言处理中的转换器为什么需要一堆编码器?

我正在关注这个有关transformers的博客 http://jalammar.github.io/illustrated-transformer/ 唯一我不理解的是为什么需要一堆编码器或解码器。我理解多头注意力层可以捕捉问题的不同表示空间。但我不明白为什么需要垂直堆叠编码器和解码器。一...

7得票2回答
使用RoBERTa加速2M个句子的嵌入。

我有大约200万个句子,想使用Facebook AI的RoBERTa-large进行向量化,使用经过NLI和STSB微调的模型进行句子相似度计算(使用优秀的sentence-transformers包)。我已经有一个数据框,其中包含两列:“utterance”列包含语料库中的每个句子,“rep...

7得票1回答
单向Transformer VS 双向BERT

我刚刚读完了Transformer论文和BERT论文。但是无法理解为什么BERT是双向的,而Transformer是单向的,正如BERT论文所述。由于它们不使用递归网络,因此很难直接解释方向。有人能给一些线索吗?谢谢。

7得票2回答
如何预下载Transformer模型

我想在 Flask 应用程序中执行文本生成任务并将其托管到 Web 服务器上,但在下载 GPT 模型时,由于下载时间和内存占用太高,弹性 Beanstalk 托管的 EC2 实例崩溃。 from transformers.tokenization_openai import OpenAIGP...