在分类问题中,为什么我们希望最大化AUC?

4

为什么我们的目标是最大化AUC而不是最大化准确性?

我认为,当我们的主要目标是最大化准确性时,AUC 也会自动变大。

2个回答

4

我猜我们使用AUC是因为它解释了我们的方法在不考虑阈值的情况下分离数据的能力。对于某些应用程序,我们不希望出现假阳性或假阴性。当我们使用准确率时,我们已经对最佳阈值进行了先验设定,而不考虑特异性和灵敏度。


3
在二元分类中,准确率是单个模型在某个阈值下的性能指标,而AUC (ROC曲线下面积)是一系列模型在一系列阈值下的性能指标。感谢这个问题,我学到了很多关于AUC和准确率的比较。我认为两者之间没有相关性,这仍然是一个未解决的问题。在答案结束时,我添加了一些链接,比如像这些,我认为会很有用。
准确率失败的一个场景:
举例问题 考虑一个二元分类问题,在其中你评估模型在一个包含100个样本的数据集上的性能(其中98个属于类别02个属于类别1)。
拿出你的复杂机器学习模型,用一个总是输出0的愚蠢系统来替换整个模型。现在的准确率是多少?
Accuracy = Correct predictions/Total predictions = 98/100 = 0.98

我们在“始终为0”的系统上获得了惊人的98%准确性。现在,您将您的系统转换为一个癌症诊断系统,并开始对一组患者进行预测(0-无癌症,1-癌症)。假设会有一些与类别1相对应的情况下,您仍将实现高准确度。尽管具有高准确度,但如果系统不能在类别1(识别癌症患者)方面表现良好,那么这个系统还有什么意义呢?
这种观察表明,准确度不是每种类型的机器学习问题的良好评估指标。以上是被称为不平衡类问题,而这种实际问题足够多。
至于准确度和AUC的比较,以下是我认为会有用的一些链接:
  1. ROC分析介绍
  2. ROC曲线下面积(AUC)与整体准确性的比较
  3. 为什么AUC对于一个不够准确的分类器比一个更准确的分类器更高?
  4. AUC是什么意思?
  5. 理解ROC曲线
  6. ROC vs. Accuracy vs. AROC

如果我说“在比较同一问题的不同分类模型时,考虑最大化AUC,并且在一个特定的分类模型中最大化AUC是不合逻辑的”,那么我的说法正确吗? - Ranjeet Singh
单个模型具有高AUC是有意义的。请记住,我们可以获得的最佳ROC曲线是在False Positive Rate = 0处具有阶跃函数的曲线。那么,即使是次优曲线(其AUC> 0.5),这意味着什么?您将拥有高True Positive Rates,即使对于会导致更高的False Positive Rates的阈值,这是好的。 - akilat90

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接