在Python中设置分类器输出的阈值

Question

在Python中设置分类器输出的阈值

3

假设我在Python中使用 "Probability=True" 标志训练了一个SVM分类器：

classifier = SVC(C = 1000000, gamma = 10, probability=True) 
classifier.fit(my_data, the_labels)

在对新数据进行分类时，我想只保留那些概率高于阈值的新数据，比如说0.90。我该怎么做呢？目前我在尝试以下代码，但是遇到了瓶颈：

当我对新数据进行分类时，我想只保留那些概率高于特定阈值（例如0.9）的分类结果。请问如何实现这一操作？目前，我已经尝试了以下代码，但是还存在问题：

labels_predicted = classifier.predict(new_data)
probabilities = classifier.predict_proba(new_data)

第一个命令返回实际标签，第二个命令返回其标签的概率。因此，对于每个数据点，我都有其最大似然标签以及所有与其相关的属于所有标签的概率。但是最大似然标签可能为0.4，而我不想要它。如何只保留具有一定阈值的标签？

- azal

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sudeep Juvekar · Accepted Answer

据我所知，SVC本身不允许以您想要的方式对概率进行阈值处理。在构建“labels_predicted”和“probabilities”之后，您可以进行第二次索引的操作，并获取接受的标签。

thresh = 0.9
accepted_probabilities_idx = probabilities.max(axis=1) > thresh
accepted_labels_predicted = labels_predicted[accepted_probabilities_idx]
accepted_new_data = pandas.DataFrame(new_data, index=accepted_probabilities_idx)

我不确定您想如何处理概率较低的机器学习数据。这个解决方案完全舍弃了这些数据。