我有一个包含n个元素的池集合,但所有集合都无法放入RAM。我只能将其中的一小部分(例如1-5%)放入RAM中。
问题是,给定查询集合Q,我需要返回与Q相交基数最大的前k个集合。
问题是,给定查询集合Q,我需要返回与Q相交基数最大的前k个集合。
- 假设Q来自相同的池集合。
- 对于普通的Q。
- 有许多概率数据结构,如KMV、MinHash及其变种,我应该使用哪个?
- 我能否修改HyperLogLog以适应我的任务?
- 这些结构中哪些可以组装成某种索引?