HyperLogLog 算法是 Flajolet 等人提出的一种巧妙的方法,只需使用极少的内存即可估计集合的基数。然而它需要考虑原始集合中的所有 N 个元素进行计算。如果我们只有原始 N 元素的一小部分随机样本(比如说只有 10%),那该怎么办呢?是否有关于如何将 HyperLogLog 或类似算法应用于这种情况的研究?我知道这本质上就是“不同值估计”问题,对此已经有丰富的研究(例如,请参阅这篇论文)。但是,我所知道的关于不同值估计的研究都使用了许多与 HyperLogLog 方法非常不同的临时估计器。因此,我想知道是否已经有人想到了将 HyperLogLog 应用于不同值估计问题。