我试图找到大型英语模型的词汇量,即
en_core_web_lg
,并找到了三个不同的信息来源:
spaCy文档:685k个键、685k个唯一向量
nlp.vocab.__len__()
:1340242 #(词汇表中的单词数)len(vocab.strings)
:1476045
Vectors.data
和Vectors.key2row
: https://spacy.io/api/vectors#attributes。默认的OOV是全0。 - aab