我需要创建一个“搜索引擎”体验:从简短的查询(几个词)中,我需要在数千个文档的语料库中找到相关的文档。
经过分析几种方法后,我使用了Google的通用句子编码器获得了非常好的结果。问题是我的文档可能非常长。对于这些非常长的文本,性能似乎正在下降,因此我的想法是将文本分割成句子/段落。
于是我最终得到了每个文档的向量列表(表示文档的每个部分)。
我的问题是:是否有一种最先进的算法/方法可以从向量列表中计算得分? 我不太想将它们合并为一个,因为这会产生与之前相同的效果(相关部分将被稀释在文档中)。是否有评分算法来总结查询和文本不同部分之间的多个余弦相似性?
重要信息:我可以有短文和长文。 因此,我的文档可以有1到10个向量。
经过分析几种方法后,我使用了Google的通用句子编码器获得了非常好的结果。问题是我的文档可能非常长。对于这些非常长的文本,性能似乎正在下降,因此我的想法是将文本分割成句子/段落。
于是我最终得到了每个文档的向量列表(表示文档的每个部分)。
我的问题是:是否有一种最先进的算法/方法可以从向量列表中计算得分? 我不太想将它们合并为一个,因为这会产生与之前相同的效果(相关部分将被稀释在文档中)。是否有评分算法来总结查询和文本不同部分之间的多个余弦相似性?
重要信息:我可以有短文和长文。 因此,我的文档可以有1到10个向量。