在监督式多类别分类中，为什么要使用宏F1分数而不是平衡准确度？

Question

3

假设我有一个三分类问题，我想建立一个分类器，基于一组特征来区分这些类别。我想根据其区分三个类别的能力来评估该模型。

从我的阅读中可以得知，在多类问题上，宏F1分数是用于评估分类器常见的指标，其中针对每个类别计算F1分数，然后使用这些F1分数的未加权平均值作为宏F1分数。

在其他文献中，我看到均衡准确率用于多类问题，其中针对每个类别计算准确率，然后使用这些准确率的未加权平均值作为均衡准确率。

那么，为什么宏F1分数比均衡准确率更受青睐呢？

均衡准确率难道不更易于解释吗？因为小于0.5的平衡准确度告诉我们模型的表现比随机猜测还要差，不是吗？

我们如何以与平衡准确率相同的方式解释F1分数--哪个阈值表示分类器的表现比随机猜测更好/更差呢？

- Randy Olson

你找到你的问题的答案了吗？ - user137927

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jaume · Answer 1

在多类分类中，类别不平衡的影响更容易扭曲典型的性能指标。一些适用于类别不平衡的性能度量包括：

这两个度量都可以很容易地适应于多类分类。

- Yanhui Zhou · Answer 2

在我看来，F1分数基于精确率和召回率，适用于更多的情况。例如，负样本比正样本少得多。