对于段落向量,其思想与w2v相同。每个段落可以由其单词表示。文中提出了两个模型。
段落向量和单词向量的平均值或串联用于预测上下文中的下一个单词。 [...] 段落标记可以视为另一个单词。它充当一个记忆,记住当前上下文的缺失部分-或段落的主题
要完全理解这些向量是如何构建的,您需要学习神经网络和反向传播算法的构建方式。 (我建议从这个视频和Andrew NG's Coursera课程开始)。
注: Softmax只是一种花哨的分类方法,w2v算法中的每个单词都被视为一个类。分层Softmax /负采样是加速softmax并处理大量类别的技巧。
每个单词的固定宽度上下文被用作神经网络的输入。网络的输出是一个浮点值向量 - 即给定维度(通常为50或100)的单词嵌入。该网络被训练以在给定的训练/测试语料库中提供良好的单词嵌入。
对于任何单词,可以轻松地想出固定大小的输入 - 比如说M个单词在其左侧,N个单词在其右侧。如何为大小不同的句子或段落做到这一点并不明显,或者至少起初并不明显。在阅读论文之前,我猜想可以将句子/段落中所有单词的固定宽度嵌入组合起来,以得到句子/段落的固定长度向量嵌入。