我正在尝试使用 spaCy
训练一个命名实体识别(NER)模型,以识别位置、人名和机构。我想了解 spaCy
如何识别文本中的实体,但一直没有找到答案。从 Github 上的 这个问题 和 这个示例 来看,似乎 spaCy 使用文本中存在的许多特征,如词性标注、前缀、后缀和其他字符和基于单词的特征来训练平均感知器。
然而,在代码中似乎没有出现 spaCy
使用 GLoVe 嵌入的情况(尽管句子/文档中的每个单词都有它们,如果在 GLoVe 语料库中存在的话)。
我的问题是 -
- 现在是否在 NER 系统中使用了这些?
- 如果我将单词向量切换到不同的集合,是否应该期望性能有意义地改变?
- 在代码的哪个位置可以找到关于
spaCy
如何使用单词向量的信息(如果有)?
我尝试查看 Cython 代码,但是没有能够理解标记系统是否使用了单词嵌入。