我已经训练好了gensim doc2Vec模型,可以找到与一个未知文档最相似的文档。
现在我需要找出两个未知文档之间的相似度值(它们不在训练数据中,因此无法用文档ID引用它们)。
d2v_model = doc2vec.Doc2Vec.load(model_file)
string1 = 'this is some random paragraph'
string2 = 'this is another random paragraph'
vec1 = d2v_model.infer_vector(string1.split())
vec2 = d2v_model.infer_vector(string2.split())
在上面的代码中,vec1和vec2被成功地初始化为一些值,并且它们的大小为“vector_size”。
现在查看gensim API和示例,我找不到适合我的方法,它们都期望TaggedDocument。
我能否逐个比较特征向量的值,如果它们更接近,则说明文本更相似?