使用场景:
我有一个 小数据集,每个类别中大约有3-10个样本。我正在使用sklearn的 SVC 使用rbf内核对其进行分类。 我需要预测的置信度以及预测的类别。我使用SVC的predict_proba方法。 结果很奇怪。我搜索了一下发现只对较大的数据集有意义。
在stack上找到了这个问题 Scikit-learn predict_proba gives wrong answers.
作者通过复制数据集来验证这个问题。
我的问题:
1) 如果我将数据集乘以100倍,每个样本重复100次,它会增加“predict_proba”的“正确性”。但会引起什么副作用?过拟合吗?
2) 有没有其他方法可以计算分类器的置信度?比如距离超平面的距离?
3) 对于这种小样本大小,是推荐使用SVM算法还是选择其他算法?