我有时在信息检索、搜索引擎、网络爬虫等领域听到过,我们可以通过对页面内容进行哈希来检测重复页面。什么样的哈希函数能够哈希整个网页(至少包含2页),使得2个副本具有相同的哈希输出值?典型哈希输出值的大小是多少?
这种哈希函数能否将存在轻微拼写错误等相似的网页放入同一个桶中?
谢谢。
我有时在信息检索、搜索引擎、网络爬虫等领域听到过,我们可以通过对页面内容进行哈希来检测重复页面。什么样的哈希函数能够哈希整个网页(至少包含2页),使得2个副本具有相同的哈希输出值?典型哈希输出值的大小是多少?
这种哈希函数能否将存在轻微拼写错误等相似的网页放入同一个桶中?
谢谢。
使用哪个取决于您的需求;在近似重复检测中,加密哈希无用,因为它们设计为将近似重复映射到非常不同的值。
我认为你正在寻找模糊哈希,其中仅对文档的部分进行哈希处理,而不是一次性对整个文档进行哈希处理。