我正在使用来自pyspark.ml.classification
的RandomForestClassifier
。
我在二元分类数据集上运行模型并显示概率。
在列概率中,我有以下内容:
+-----+----------+---------------------------------------+
|label|prediction|probability |
+-----+----------+---------------------------------------+
|0.0 |0.0 |[0.9005918461098429,0.0994081538901571]|
|1.0 |1.0 |[0.6051335859900139,0.3948664140099861]|
+-----+----------+---------------------------------------+
我有一个包含两个元素的列表,显然对应于预测类别的概率。
我的问题: probability[0] 是否始终对应预测值?而在 Spark 文档中并不清楚!
0.0
,模型有90%的时间是正确的,有10%的时间是错误的。 - Tim Biegeleisen[P(label=i) for i in 0..#labels]
,与预测无关。如果您使用非标准阈值(优先标签=1),则可能会出现这种情况。否则就是一个bug。总之,没有MCVE的问题是不有用的。 - zero323