为什么调整兰德指数(ARI)比兰德指数(RI)更好,以及如何从公式直观理解ARI。

9
我阅读了维基百科关于Rand IndexAdjusted Rand Index的文章。我能理解它们在数学上是如何计算的,并且可以将Rand指数解释为一致性与不一致性之比。但我无法对ARI有同样的直觉感受。 这篇博客文章通过考虑重叠机会来解释为什么ARI比RI更好。有人能通过一个例子或直观的解释来解释为什么ARI比RI更好吗?
1个回答

7
我认为主要的直观点在于已经链接的博客文章中提到的内容。两个随机集合如何具有接近1的RI?原因在于簇的数量。当有很多簇时,一对同时出现在两个集合中的元素属于不同簇的概率更高。这仍然被计入RI中作为一种一致的事件。RI将其视为“成功”,如果一对元素要么都在每个分区的相同各自簇中,要么如果两者都在每个分区的不同各自簇中。这种“成功”的概念可能会受到随机机会的不利影响,只需增加分区中的簇的数量即可。例如,想象一个数据集有100个示例。分区X将将其分成100个不同的子集,每个子集有1个数据点。分区Y将其分成99个子集,其中98个子集每个有1个数据点,1个子集有2个数据点。常规RI对于这种情况看起来几乎完美,因为随机选择的任何两个点肯定在X中的两个不同子集中,它们不在Y的两个不同子集中的唯一方式是我们从包含两个数据点的特殊第99个子集中抽取了两个项目的不太可能的机会。因此,RI将非常接近1(如果我们使数据集大于100,则可以使其任意接近1)。但对于ARI,由于定义,列联表中的所有n_ij项都将为1或0,这意味着分子必须为负数,表示簇相似性差(基本上是由于这些分区承载的唯一“信息”是具有两个数据点的第99个Y子集……因此,如果X不能再现该子集,则在某种意义上它极大地不能再现Y所指示的关系)。您可以通过将X视为50个不同的二元对集合,将Y作为50个不同的二元对集合的不同集合来让这个思想实验变得更加复杂。然后,再次通过随机机会,RI可能看起来很好,因为大多数时间元素将随机地都不属于相同的双元素子集。只有对于实际上在X或Y中属于一起的那些成对(100个可能的成对),RI才会受到惩罚,而对于其他(100选择2)-100剩余的成对,RI将标记它们被成功地放置在X和Y的不同组中。同样,只要使数据集变得更大,就会越来越改善RI。

非常感谢您包含了100个示例和99个子集以及50个不同的二元对集合。我现在更好地理解ARI的公式了。因此,ARI测量的是相似性超过了预期指数(预期指数)。而预期指数会根据数据的分布(分区数等)而改变,这一点没有被RI考虑到。 - RTM
一个重要但常常被忽视的期望考虑因素是聚类的随机模型选择。请参阅Gates&Ahn(2017)以了解随机模型假设如何改变解释的扩展讨论。 - ComplexGates

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接