多标签分类中的性能评估

Question

5

我正在研究准确率和F1得分，以评估多标签分类算法（每个实例都与多个标签相关联）。具体是：

Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)

哪种方法更好，为什么？在什么情况下应该优先考虑其中一种方法？

- Marsellus Wallace

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- doodhwala · Answer 1

通常来说，准确率更容易解释。但是F1得分更具信息量。

这在很大程度上取决于您要解决的问题类型以及不同类别的相对重要性。

例如，在MNIST数字分类的情况下，您可能希望各个类别的样本数量相等（每个类别有相同数量的示例），则准确率指标相当代表性。

但是在另一种情况下，比如癌症测试，您可能会发现：

在这种情况下，更有意义的是依赖F1得分，并尝试平衡精确度和召回率，而不仅仅看准确率。

因此，它真正取决于每个标签的相对重要性以及您想要优先考虑的内容。如果没有查看您问题的实际领域，就无法得出结论。