我尝试查看SpaCy小型模型词汇中的单词数量:
model_name="en_core_web_sm"
nlpp=spacy.load(model_name)
len(list(nlpp.vocab.strings))
我只得到了1185个单词。我也在我的同事的电脑上尝试了一下,结果不同(1198和1183)。
训练部分-词性标注只有这么少的词汇是正常的吗?当我将其用于我的数据集时,会丢失很多单词。为什么不同机器上的单词数量会有所不同?
谢谢!