假设我有大量文档,我用某种方式(例如Sha256)对它们进行散列并存储它们的哈希值。是否有一种哈希技术可以让我仅通过查看它们的哈希值来检查
澄清一下:这与sim / min-hashing,查找相似副本或Levenshtein距离无关。 我正在寻找一种哈希算法,可以通过仅查看哈希值来检查子字符串。
例如:
string1
是否包含在string2
中? 我想避免加载完整的文本。澄清一下:这与sim / min-hashing,查找相似副本或Levenshtein距离无关。 我正在寻找一种哈希算法,可以通过仅查看哈希值来检查子字符串。
例如:
var string1 = "bla bla bla cat dog bla bla";
var string2 = "cat dog";
var hash1 = HashAlgo(string1); // <-- magic goes here
var hash2 = HashAlgo(string2);
Assert.IsTrue(string1.Contains(string2));
Assert.IsTrue(hash1.Contains(hash2)); // <--- magic goes here
a
、ab
、abc
、abcd
和abcde
进行哈希。每个哈希值都会包含前面的值,最终你只会得到一些奇怪的转换函数,而不是一个哈希值。 - JNevill