CNN: 从word2vec中初始化未知单词

Question

CNN: 从word2vec中初始化未知单词

3

我发现了Kim关于CNN使用word2vec的演示文稿幻灯片：http://www.people.fas.harvard.edu/~yoonkim/data/Kim_EMNLP_2014_slides.pdf 在第20张幻灯片上，第四个要点如下：

Words not in word2vec are initialized randomly from U[−a, a] 
where a is chosen such that the unknown words have the
same variance as words already in word2vec.

现在我想知道如何计算“a”，以及如何计算完全未知单词的整个向量。

- Thomas Kern

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Salvador Medina · Accepted Answer

根据Mikolov本人的回答，可以基于描述罕见词汇所在空间来初始化向量。他提到应该对罕见词汇求平均，以此构建未知标记。

按照这个思路，我认为a指的是罕见词汇空间的半径。你可以通过取平均值得到罕见词汇的重心C，计算罕见向量空间Q的直径2*a，并通过在Q内均匀分布的随机样本生成向量u。