我正在使用一个预训练的BERT模型将文本分词为有意义的单元。但由于文本中有很多专有名词,我不希望BERT将其拆分成词片段。是否有什么解决方法?
例如:
创建如下令牌:
tokenizer = BertTokenizer('bert-base-uncased-vocab.txt')
tokens = tokenizer.tokenize("metastasis")
创建如下令牌:
['meta', '##sta', '##sis']
然而,我希望将整个单词作为一个记号来保留,就像这样:
['metastasis']
' '.join([x for x in tokens]).replace(' ##', '')
可以吗? - Wiktor Stribiżew