Scikit - 如何定义绘制 ROC 曲线的阈值

4

我有一个 Boosted Trees 模型,用于测试数据集的概率和分类。我试图为其绘制 ROC 曲线,但我无法确定如何在 Scikit-learn 中定义阈值/α 值。

from sklearn.metrics import precision_recall_curve,roc_curve,auc, average_precision_score

fpr = dict()
tpr = dict()
roc_auc = dict()

fpr,tpr,_ = roc_curve(ytest,p_test, pos_label=1)
roc_auc = auc(fpr,tpr)

plt.figure()
lw = 2
plt.plot(fpr, tpr, color='darkorange', lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")

plt.savefig('ROCProb.png')
plt.show()

我在这里看到了一个类似的问题:scikit-learn中roc_curve中的阈值

但是我无法弄清楚。我也可以使用其他库。


1
在fpr和tpr中的每个值都是为特定阈值计算的,这些阈值的值将在第三个输出roc_curve(在您的情况下是变量_)中返回。 - sgDysregulation
@sgDysregulation - 谢谢!请将其发布为答案。这也会帮助其他人! - Dreams
@Taurn 没问题,已完成。 - sgDysregulation
然而,这并不真正回答问题,尽管或许楼主已经满意——问题要求的是如何定义阈值,而不是 roc_curve 计算它们的方式?我想知道后者的答案!@Dreamsn? - jtlz2
1个回答

3

fprtpr中的每个值都是基于某一阈值计算的,这些阈值的值在第三个输出的roc_curve中返回(在您的情况下,变量为_)。

以下是一个示例:

import numpy as np
from sklearn import metrics
y_true = np.array([1, 1, 2, 2])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y_true, y_scores, pos_label=2)

将数据制表以进行演示

   Threshold  FPR  TPR
0       0.80  0.0  0.5
1       0.40  0.5  0.5
2       0.35  0.5  1.0
3       0.10  1.0  1.0

第一行显示,对于阈值为0.8,fpr为0,tpr为0.5,以此类推。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接