在监督式多类别分类中,为什么要使用宏F1分数而不是平衡准确度?

3
假设我有一个三分类问题,我想建立一个分类器,基于一组特征来区分这些类别。我想根据其区分三个类别的能力来评估该模型。
从我的阅读中可以得知,在多类问题上,宏F1分数是用于评估分类器常见的指标,其中针对每个类别计算F1分数,然后使用这些F1分数的未加权平均值作为宏F1分数
在其他文献中,我看到均衡准确率用于多类问题,其中针对每个类别计算准确率,然后使用这些准确率的未加权平均值作为均衡准确率
那么,为什么宏F1分数比均衡准确率更受青睐呢?
均衡准确率难道不更易于解释吗?因为小于0.5的平衡准确度告诉我们模型的表现比随机猜测还要差,不是吗?
我们如何以与平衡准确率相同的方式解释F1分数--哪个阈值表示分类器的表现比随机猜测更好/更差呢?

你找到你的问题的答案了吗? - user137927
2个回答

0
在多类分类中,类别不平衡的影响更容易扭曲典型的性能指标。一些适用于类别不平衡的性能度量包括: 这两个度量都可以很容易地适应于多类分类。

0
在我看来,F1分数基于精确率和召回率,适用于更多的情况。例如,负样本比正样本少得多。

1
平衡准确率同时考虑了精确度和召回率,是所有类别的平均准确率。 - Randy Olson

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接