在此页面中,它说:
[...] skip-gram反转了上下文和目标,并试图从其目标单词预测每个上下文单词 [...]
但是,看一下它生成的训练数据集,X和Y对的内容似乎是可交换的,因为这两个(X,Y)对:
(quick, brown), (brown, quick)
那么,如果最终结果相同,为什么还要区分上下文和目标呢?
此外,在Udacity的Deep Learning课程中练习word2vec时,我想知道为什么他们在这个问题上如此强调这两种方法的不同:
与skip-gram的另一种Word2Vec模型CBOW(Continuous Bag of Words)相比,CBOW模型中,您预测一个单词的向量的上下文单词而不是从上下文单词预测单词向量。实现并评估在text8数据集上训练的CBOW模型。
这不会产生相同的结果吗?