得票数最多 'transformer-model' 问题 - 第4页

关联标签

8得票1回答

PyTorch nn.Transformer 学会复制目标

我正在尝试使用 nn.Transformer 类训练一个 Transformer Seq2Seq 模型。我相信我的实现是错误的，因为当我训练它时，它似乎过快地适应了数据，并且在推理时经常重复输出。这似乎是解码器中掩码的问题，当我移除目标掩码时，训练性能并没有变化。这使我相信我正在错误地处理目标...

pytorchtransformer-model

7得票1回答

Huggingface 分词器中的 padding 是如何工作的？

我尝试着按照分词示例进行操作: tokenizer = BertTokenizer.from_pretrained(MODEL_TYPE, do_lower_case=True) sent = "I hate this. Not that.", _tokenized = to...

nlphuggingface-transformersbert-language-modeltransformer-modelhuggingface-tokenizers

7得票2回答

如何获取Huggingface Transformer模型预测[零样本分类]的SHAP值？

给定一个 Huggingface 的零样本分类任务，内容如下： from transformers import pipeline classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnl...

pytorchhuggingface-transformerstransformer-modelshap

7得票2回答

自然语言处理中的转换器为什么需要一堆编码器？

我正在关注这个有关transformers的博客 http://jalammar.github.io/illustrated-transformer/ 唯一我不理解的是为什么需要一堆编码器或解码器。我理解多头注意力层可以捕捉问题的不同表示空间。但我不明白为什么需要垂直堆叠编码器和解码器。一...

machine-learningdeep-learningnlptransformer-model

7得票2回答

使用RoBERTa加速2M个句子的嵌入。

我有大约200万个句子，想使用Facebook AI的RoBERTa-large进行向量化，使用经过NLI和STSB微调的模型进行句子相似度计算（使用优秀的sentence-transformers包）。我已经有一个数据框，其中包含两列：“utterance”列包含语料库中的每个句子，“rep...

pythonnlpword-embeddingtransformer-model

7得票1回答

单向Transformer VS 双向BERT

我刚刚读完了Transformer论文和BERT论文。但是无法理解为什么BERT是双向的，而Transformer是单向的，正如BERT论文所述。由于它们不使用递归网络，因此很难直接解释方向。有人能给一些线索吗？谢谢。

nlptransformer-modelpre-trained-modelbert-language-model

7得票2回答

如何预下载Transformer模型

我想在 Flask 应用程序中执行文本生成任务并将其托管到 Web 服务器上，但在下载 GPT 模型时，由于下载时间和内存占用太高，弹性 Beanstalk 托管的 EC2 实例崩溃。 from transformers.tokenization_openai import OpenAIGP...

machine-learningflaskamazon-elastic-beanstalktransformer-modelhuggingface-transformers