en_vectors_web_lg和Glove向量(spaCy)之间的区别

5
1个回答

4
你可以通过查看spaCy的.vocab属性/对象并将其与GloVe文件中的单词进行比较,自己检查spaCy和GloVe模型的词汇表。首先将数据加载到两个列表中:
import spacy
nlp = spacy.load('en_vectors_web_lg')
spacy_words = [word for word in nlp.vocab.strings]
glove_filename = 'glove.840B.300d.txt'
glove_words = [line.split()[0].decode('utf-8') for line in open(glove_filename)]

然后检查集合差异,以获取“缺失”的单词:

>>> list(set(glove_words) - set(spacy_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia',
 u'.90.99', u'USAMol', u'USAMon', u'Connerty', u'RealLife',
 u'NaughtyAllie']

>>> list(set(spacy_words) - set(glove_words))[:10]
[u'ftdna', u'verplank', u'NICARIO', u'Plastic-Treated', u'ZAI-TECH',
 u'Lower-Sulfur', u'desmonds', u'KUDNER', u'berlinghoff', u'50-ACRE']

缺失的单词数量超过了220万 - 110万 ~ 110万个:

>>> len(set(glove_words) - set(spacy_words))
1528158

请注意,nlp.vocab.stringsnlp.vocab.vectors之间存在差异。您可以使用向量对象从中加载单词。
vector_words = []
for key, vector in nlp.vocab.vectors.items():
    try:
        vector_words.append(nlp.vocab.strings[key])
    except KeyError:
        pass

(关于try/except: 对于我来说,不清楚为什么vocab.strings中缺少某些键)

使用此列表,您将获得:

>>> list(set(glove_words) - set(vector_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia', u'.90.99',  
 u'USAMol', u'USAMon', u'Connerty', u'RealLife', u'NaughtyAllie']

更新:有关词汇差异的问题已在此处提出:https://github.com/explosion/spaCy/issues/1985


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接