如果我们有一个包含M个单词的集合,并且预先知道每对单词意义相似性的相似度(有一个M x M相似矩阵),那么我们可以使用哪个算法为每个单词生成一个k维位向量,使得只需比较它们的向量(例如获取向量的绝对差异),即可比较每对单词?
我不知道这个特定问题叫什么。如果我知道,找到一堆描述类似但做其他事情的算法会更容易。
额外观察:
我认为这个算法需要产生一个,在这种情况下想要的,副作用。如果从矩阵中发现单词A与单词B相似,并且单词B与单词C相似,但是检测到[A,C]之间的相似度较低,则计算出的结果向量差应该产生高度的[A,C]相似度。因此,我们会以某种方式用这个算法来填补矩阵中以前的空缺 - 平滑相似度。但除了这种平滑之外,目标是尽可能接近我们在矩阵中拥有的原始数字。
我不知道这个特定问题叫什么。如果我知道,找到一堆描述类似但做其他事情的算法会更容易。
额外观察:
我认为这个算法需要产生一个,在这种情况下想要的,副作用。如果从矩阵中发现单词A与单词B相似,并且单词B与单词C相似,但是检测到[A,C]之间的相似度较低,则计算出的结果向量差应该产生高度的[A,C]相似度。因此,我们会以某种方式用这个算法来填补矩阵中以前的空缺 - 平滑相似度。但除了这种平滑之外,目标是尽可能接近我们在矩阵中拥有的原始数字。