我阅读了维基百科关于Rand Index和Adjusted Rand Index的文章。我能理解它们在数学上是如何计算的,并且可以将Rand指数解释为一致性与不一致性之比。但我无法对ARI有同样的直觉感受。
这篇博客文章通过考虑重叠机会来解释为什么ARI比RI更好。有人能通过一个例子或直观的解释来解释为什么ARI比RI更好吗?
n_ij
项都将为1或0,这意味着分子必须为负数,表示簇相似性差(基本上是由于这些分区承载的唯一“信息”是具有两个数据点的第99个Y子集……因此,如果X不能再现该子集,则在某种意义上它极大地不能再现Y所指示的关系)。您可以通过将X视为50个不同的二元对集合,将Y作为50个不同的二元对集合的不同集合来让这个思想实验变得更加复杂。然后,再次通过随机机会,RI可能看起来很好,因为大多数时间元素将随机地都不属于相同的双元素子集。只有对于实际上在X或Y中属于一起的那些成对(100个可能的成对),RI才会受到惩罚,而对于其他(100选择2)-100
剩余的成对,RI将标记它们被成功地放置在X和Y的不同组中。同样,只要使数据集变得更大,就会越来越改善RI。