假设我有一个三分类问题,我想建立一个分类器,基于一组特征来区分这些类别。我想根据其区分三个类别的能力来评估该模型。
从我的阅读中可以得知,在多类问题上,宏F1分数是用于评估分类器常见的指标,其中针对每个类别计算F1分数,然后使用这些F1分数的未加权平均值作为
在其他文献中,我看到均衡准确率用于多类问题,其中针对每个类别计算准确率,然后使用这些准确率的未加权平均值作为
那么,为什么宏F1分数比均衡准确率更受青睐呢?
均衡准确率难道不更易于解释吗?因为小于0.5的平衡准确度告诉我们模型的表现比随机猜测还要差,不是吗?
我们如何以与平衡准确率相同的方式解释F1分数--哪个阈值表示分类器的表现比随机猜测更好/更差呢?
从我的阅读中可以得知,在多类问题上,宏F1分数是用于评估分类器常见的指标,其中针对每个类别计算F1分数,然后使用这些F1分数的未加权平均值作为
宏F1分数
。在其他文献中,我看到均衡准确率用于多类问题,其中针对每个类别计算准确率,然后使用这些准确率的未加权平均值作为
均衡准确率
。那么,为什么宏F1分数比均衡准确率更受青睐呢?
均衡准确率难道不更易于解释吗?因为小于0.5的平衡准确度告诉我们模型的表现比随机猜测还要差,不是吗?
我们如何以与平衡准确率相同的方式解释F1分数--哪个阈值表示分类器的表现比随机猜测更好/更差呢?