多标签分类中的性能评估

5

我正在研究准确率和F1得分,以评估多标签分类算法(每个实例都与多个标签相关联)。具体是:

Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)

哪种方法更好,为什么?在什么情况下应该优先考虑其中一种方法?
1个回答

0

通常来说,准确率更容易解释。但是F1得分更具信息量。

这在很大程度上取决于您要解决的问题类型以及不同类别的相对重要性。

例如,在MNIST数字分类的情况下,您可能希望各个类别的样本数量相等(每个类别有相同数量的示例),则准确率指标相当代表性。

但是在另一种情况下,比如癌症测试,您可能会发现:

  1. 最好找出所有癌症病例,即使需要更多没有癌症的人参加测试(高召回率但对患者来说费用昂贵)
  2. 类别之间存在很大的不平衡(例如只有5%的人患有癌症),因此您可以通过告诉所有人都没有癌症来获得高准确率,但这对于实际问题并没有帮助

在这种情况下,更有意义的是依赖F1得分,并尝试平衡精确度和召回率,而不仅仅看准确率。

因此,它真正取决于每个标签的相对重要性以及您想要优先考虑的内容。如果没有查看您问题的实际领域,就无法得出结论。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接