在分类问题中，为什么我们希望最大化AUC？

Question

在分类问题中，为什么我们希望最大化AUC？

machine-learningstatisticsmathematical-optimization

4

为什么我们的目标是最大化AUC而不是最大化准确性？

我认为，当我们的主要目标是最大化准确性时，AUC 也会自动变大。

- Ranjeet Singh

2个回答

3

在二元分类中，准确率是单个模型在某个阈值下的性能指标，而AUC (ROC曲线下面积)是一系列模型在一系列阈值下的性能指标。感谢这个问题，我学到了很多关于AUC和准确率的比较。我认为两者之间没有相关性，这仍然是一个未解决的问题。在答案结束时，我添加了一些链接，比如像这些，我认为会很有用。

准确率失败的一个场景：

举例问题 考虑一个二元分类问题，在其中你评估模型在一个包含100个样本的数据集上的性能（其中98个属于类别0，2个属于类别1）。

拿出你的复杂机器学习模型，用一个总是输出0的愚蠢系统来替换整个模型。现在的准确率是多少？

Accuracy = Correct predictions/Total predictions = 98/100 = 0.98

我们在“始终为0”的系统上获得了惊人的98％准确性。现在，您将您的系统转换为一个癌症诊断系统，并开始对一组患者进行预测（0-无癌症，1-癌症）。假设会有一些与类别1相对应的情况下，您仍将实现高准确度。尽管具有高准确度，但如果系统不能在类别1（识别癌症患者）方面表现良好，那么这个系统还有什么意义呢？

这种观察表明，准确度不是每种类型的机器学习问题的良好评估指标。以上是被称为不平衡类问题，而这种实际问题足够多。

至于准确度和AUC的比较，以下是我认为会有用的一些链接：

- akilat90

如果我说“在比较同一问题的不同分类模型时，考虑最大化AUC，并且在一个特定的分类模型中最大化AUC是不合逻辑的”，那么我的说法正确吗？ - Ranjeet Singh

单个模型具有高AUC是有意义的。请记住，我们可以获得的最佳ROC曲线是在False Positive Rate = 0处具有阶跃函数的曲线。那么，即使是次优曲线（其AUC> 0.5），这意味着什么？您将拥有高True Positive Rates，即使对于会导致更高的False Positive Rates的阈值，这是好的。 - akilat90

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Pierre S. · Accepted Answer

我猜我们使用AUC是因为它解释了我们的方法在不考虑阈值的情况下分离数据的能力。对于某些应用程序，我们不希望出现假阳性或假阴性。当我们使用准确率时，我们已经对最佳阈值进行了先验设定，而不考虑特异性和灵敏度。