Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。
Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。
我们目前关注一个名为BAD的缩略语识别的基因。 同时,“bad”是一个英语单词,有不同的形式(badly,worst,...)。 由于Word2vec基于上下文(周围的单词)概率构建其向量,当您不执行词形还原时,您可能会失去某些单词之间的关系。 因此,在BAD情况下,您可能会在向量空间中得到与基因名称而非形容词更接近的单词。