Spacy实体链接 - 词向量

Question

Spacy实体链接 - 词向量

5

我对词向量的工作方式感到非常困惑，特别是在涉及到spacy的实体链接（https://spacy.io/usage/training#entity-linker）时。

在向知识库添加实体时，其中一个参数是entity_vector。你如何得到这个参数？我已经尝试过：

nlp = spacy.load('en_core_web_sm')
kb = KnowledgeBase(vocab = nlp.vocab, entity_vector_length = 96)
for n in m_yentities:
    kb.add_entity(entity = n, freq = ___, entity_vector = **nlp(n).vector**)

这个**代码给了我96长度的向量，所以我用它来作为entity_vector_length，尽管在示例中他们使用了3。我只是想知道我的方法是否可行，但我对此感到有些困惑。

- formicaman

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sofie VL · Accepted Answer

我们需要更好地记录这一点，但让我试着解释一下：KnowledgeBase 存储预训练的实体向量。这些向量是实体描述的压缩版本。虽然这样的描述可以是一个或多个单词（长度不同），但它的向量应该始终具有固定的大小。长度为 3 是不现实的，类似于 64 或 96 的长度更加合理。如果我们有了这个，每个实体描述就被映射到一个 96D 空间中，以便我们可以在进一步的下游神经网络中使用这些描述。

如你提供的 example 所示，您可以使用 EntityEncoder 来创建这种从多个单词描述到 96D 向量的映射，并且您可以调整嵌入的长度。更大的嵌入意味着可以捕获更多信息，但也需要更多的存储空间。

为实体描述创建这些嵌入向量是一个离线步骤，只需在创建知识库时完成。然后，当您想要训练神经网络进行实体链接时，该网络的大小将取决于您选择的描述嵌入的大小。

直观地说，“实体嵌入”是所有实体描述中单词向量的一种平均压缩版本。

另外，我不知道您是否看过此内容，如果您正在寻找更真实的实体链接运行方式，可以在这里查看处理Wikipedia和Wikidata的脚本。