21得票6回答
你能否推荐一个好的minhash实现?

我正在寻找一种能够帮助我工作的minhash开源实现。 我需要的功能非常简单,给定一个集合作为输入,该实现应返回其minhash。 Python或C实现将是首选,以防需要修改以适用于我的工作。 任何指针都将非常有帮助。 敬礼。

19得票2回答
为生产系统选择SimHash和MinHash之间的区别

我熟悉SimHash和MinHash的局部敏感哈希技术。SimHash在实值数据上使用余弦相似度。MinHash在二进制向量上计算相似性。但我无法决定哪种更好。 我正在为一个网站创建后端系统,以查找半结构化文本数据的近似重复项。例如,每个记录都有一个标题、位置和简短的文本描述( 除了具体语...

17得票1回答
局部敏感哈希 - Elasticsearch

有没有Elasticsearch上允许使用 LSH 的插件?如果有,请告诉我在哪里可以找到并简单说明如何使用。谢谢。 编辑: 我发现ES使用MinHash插件。我该如何将文档相互比较?为了找到重复内容,应该使用怎样的设置?

10得票2回答
在Redis中求交集巨大HyperLogLogs的最佳方法

问题很简单:我需要找到最优策略,基于Redis的表示法实现准确HyperLogLog集合的联合,这包括处理它们的稀疏/密集表示,如果数据结构被导出供其他地方使用。 两种策略 有两种策略,其中一种似乎要简单得多。我查看了实际的Redis源代码,但在精度和效率的角度上,我在是否使用他们内置的结构/...

10得票2回答
使用MinHash寻找2张图片之间的相似性。

我正在使用MinHash算法来查找图片之间的相似程度。 我遇到了这篇文章:如何识别轻微修改的图像?,其中指向了MinHash算法。 我使用了此博客文章中的C#实现:集合相似性和MinHash。 但是在尝试使用该实现时,我遇到了2个问题。 我应该将universe值设置为多少? 将图像...

7得票1回答
奇怪的性能问题:Spark LSH MinHash approxSimilarityJoin

我正在使用Apache Spark ML LSH的approxSimilarityJoin方法连接两个数据集,但我发现一些奇怪的行为。 在内部连接后,数据集有点倾斜,但每次一个或多个任务需要很长时间才能完成。 正如你所看到的,每个任务的中位数为6毫秒(我正在运行一个较小的源数据集进行测...

7得票2回答
使用Min-hash实现局部敏感哈希

我已经阅读了很多关于使用min-hash实现LSH(局部敏感哈希)的教程、文档和代码片段。 LSH通过对随机子集进行哈希并对其进行聚合来查找两个集合的Jaccard系数。我看过code.google.com上的实现,但无法理解它们的方法。我理解Google新闻个性化:可扩展的在线协作过滤这篇...