CNN: 从word2vec中初始化未知单词

3
我发现了Kim关于CNN使用word2vec的演示文稿幻灯片:http://www.people.fas.harvard.edu/~yoonkim/data/Kim_EMNLP_2014_slides.pdf 在第20张幻灯片上,第四个要点如下:
Words not in word2vec are initialized randomly from U[−a, a] 
where a is chosen such that the unknown words have the
same variance as words already in word2vec.

现在我想知道如何计算“a”,以及如何计算完全未知单词的整个向量。

1个回答

6
根据Mikolov本人的回答,可以基于描述罕见词汇所在空间来初始化向量。他提到应该对罕见词汇求平均,以此构建未知标记。
按照这个思路,我认为a指的是罕见词汇空间的半径。你可以通过取平均值得到罕见词汇的重心C,计算罕见向量空间Q的直径2*a,并通过在Q内均匀分布的随机样本生成向量u

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接