在HuggingFace的BertTokenizerFast.from_pretrained('bert-base-uncased')中，max_length、padding和truncation参数是如何工作的？

Question

在HuggingFace的BertTokenizerFast.from_pretrained('bert-base-uncased')中，max_length、padding和truncation参数是如何工作的？

pythondeep-learningpytorchbert-language-modelhuggingface-tokenizers

22

我正在处理文本分类问题，在此我想使用BERT模型作为基础，接着再加上密集层。我想知道3个参数如何工作？例如，如果我有3个句子：

'My name is slim shade and I am an aspiring AI Engineer',
'I am an aspiring AI Engineer',
'My name is Slim'

那么这三个参数会做什么呢？我认为如下：

max_length=5 严格保留所有句子的长度为5
padding=max_length 将第三个句子添加1个填充位
truncate=True 截断第一个和第二个句子，使它们的长度严格为5。

如果我错了，请纠正我。

以下是我使用的代码。

! pip install transformers==3.5.1

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

tokens = tokenizer.batch_encode_plus(text,max_length=5,padding='max_length', truncation=True)
  
text_seq = torch.tensor(tokens['input_ids'])
text_mask = torch.tensor(tokens['attention_mask'])

- Deshwal

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ashwin Geet D'Sa · Accepted Answer

您的假设基本正确，但是有一些区别。

当max_length=5时，max_length指定了标记化文本的长度。默认情况下，BERT执行单词片段（word-piece）标记化。例如，“playing”这个单词可以被分割成“play”和“##ing”（这可能不是很精确，只是为了帮助您理解单词片段标记化），然后在句子开头添加[CLS]标记，在句子末尾添加[SEP]标记。因此，它首先对句子进行标记化，将其截断为max_length-2（如果truncation=True），然后在开头添加[CLS]标记，末尾添加[SEP]标记。（总长度为max_length）

当padding='max_length'时，在这个例子中，第三个示例将被填充，并不是非常明显，因为长度在添加[CLS]和[SEP]标记后超过了5。但是，如果您的max_length为10，则标记化的文本对应于[101, 2026, 2171, 2003, 11754, 102, 0, 0, 0, 0]，其中101是[CLS]标记的ID，102是[SEP]标记的ID，因此填充为零，使所有文本长度为max_length。同样地，truncate=True 会确保严格遵循 max_length ，即如果 truncate=True ，则较长的句子将被截断为仅有 max_length 的长度。