有没有一种哈希算法可以将相似的文本文档哈希成一个特定的哈希值?
例如,
A =“这是示例文本1” B =“这是示例文本2”
需要将A和B哈希到同一个值。
我已经进行了一些研究并阅读了关于SimHash和LSH算法的文章。 Simhash会导致哈希冲突,并且可以使用汉明距离来定义相似性。
理想情况下,我希望有一种类似于“如果字符串A和字符串B的相似度差异在可接受的阈值范围内(t < tmax),则将A和B哈希到相同的哈希值”。
有没有一种哈希算法可以将相似的文本文档哈希成一个特定的哈希值?
例如,
A =“这是示例文本1” B =“这是示例文本2”
需要将A和B哈希到同一个值。
我已经进行了一些研究并阅读了关于SimHash和LSH算法的文章。 Simhash会导致哈希冲突,并且可以使用汉明距离来定义相似性。
理想情况下,我希望有一种类似于“如果字符串A和字符串B的相似度差异在可接受的阈值范围内(t < tmax),则将A和B哈希到相同的哈希值”。