为什么调整兰德指数(ARI)比兰德指数(RI)更好，以及如何从公式直观理解ARI。

Question

为什么调整兰德指数(ARI)比兰德指数(RI)更好，以及如何从公式直观理解ARI。

machine-learningstatisticscluster-analysis

9

我阅读了维基百科关于Rand Index和Adjusted Rand Index的文章。我能理解它们在数学上是如何计算的，并且可以将Rand指数解释为一致性与不一致性之比。但我无法对ARI有同样的直觉感受。这篇博客文章通过考虑重叠机会来解释为什么ARI比RI更好。有人能通过一个例子或直观的解释来解释为什么ARI比RI更好吗？

- RTM

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ely · Accepted Answer

我认为主要的直观点在于已经链接的博客文章中提到的内容。两个随机集合如何具有接近1的RI？原因在于簇的数量。当有很多簇时，一对同时出现在两个集合中的元素属于不同簇的概率更高。这仍然被计入RI中作为一种一致的事件。RI将其视为“成功”，如果一对元素要么都在每个分区的相同各自簇中，要么如果两者都在每个分区的不同各自簇中。这种“成功”的概念可能会受到随机机会的不利影响，只需增加分区中的簇的数量即可。例如，想象一个数据集有100个示例。分区X将将其分成100个不同的子集，每个子集有1个数据点。分区Y将其分成99个子集，其中98个子集每个有1个数据点，1个子集有2个数据点。常规RI对于这种情况看起来几乎完美，因为随机选择的任何两个点肯定在X中的两个不同子集中，它们不在Y的两个不同子集中的唯一方式是我们从包含两个数据点的特殊第99个子集中抽取了两个项目的不太可能的机会。因此，RI将非常接近1（如果我们使数据集大于100，则可以使其任意接近1）。但对于ARI，由于定义，列联表中的所有n_ij项都将为1或0，这意味着分子必须为负数，表示簇相似性差（基本上是由于这些分区承载的唯一“信息”是具有两个数据点的第99个Y子集……因此，如果X不能再现该子集，则在某种意义上它极大地不能再现Y所指示的关系）。您可以通过将X视为50个不同的二元对集合，将Y作为50个不同的二元对集合的不同集合来让这个思想实验变得更加复杂。然后，再次通过随机机会，RI可能看起来很好，因为大多数时间元素将随机地都不属于相同的双元素子集。只有对于实际上在X或Y中属于一起的那些成对（100个可能的成对），RI才会受到惩罚，而对于其他（100选择2）-100剩余的成对，RI将标记它们被成功地放置在X和Y的不同组中。同样，只要使数据集变得更大，就会越来越改善RI。