Scikit learn的SVC预测概率不符合预期

25

我使用 SVM 分类器构建了情感分析器。我使用 probability=True 训练模型,它可以给出概率。但是当我将模型进行 pickle 操作并稍后再次加载它时,概率就无法工作了。

这个模型:

from sklearn.svm import SVC, LinearSVC
pipeline_svm = Pipeline([
    ('bow', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('classifier', SVC(probability=True)),])

# pipeline parameters to automatically explore and tune
param_svm = [
  {'classifier__C': [1, 10, 100, 1000], 'classifier__kernel': ['linear']},
  {'classifier__C': [1, 10, 100, 1000], 'classifier__gamma': [0.001, 0.0001], 'classifier__kernel': ['rbf']},
]

grid_svm = GridSearchCV(
    pipeline_svm,
    param_grid=param_svm,
    refit=True,
    n_jobs=-1, 
    scoring='accuracy',
    cv=StratifiedKFold(label_train, n_folds=5),)

svm_detector_reloaded = cPickle.load(open('svm_sentiment_analyzer.pkl', 'rb'))
print(svm_detector_reloaded.predict([""""Today is awesome day"""])[0])

给我的结果是:

当probability=False时,predict_proba不可用,导致AttributeError。


1
你能展示一下最初将对象保存到 ''svm_sentiment_analyzer.pkl'' 的代码吗? - Bert Kellerman
你是否尝试调用 predict_proba 而不是 predict 导致了 AttributeError?否则这有点令人困惑。 - Davide Fiocco
5个回答

19

使用:SVM(probability=True)

或者

grid_svm = GridSearchCV(
    probability=True
    pipeline_svm,
    param_grid=param_svm,
    refit=True,
    n_jobs=-1, 
    scoring='accuracy',
    cv=StratifiedKFold(label_train, n_folds=5),)

8

像上面有人建议的那样,在初始化分类器时添加(probability = True)解决了我的错误:

clf = SVC(kernel='rbf', C=1e9, gamma=1e-07, probability=True).fit(xtrain,ytrain)

2
您可以使用CalibratedClassifierCV来输出概率分数。
from sklearn.calibration import CalibratedClassifierCV

model_svc = LinearSVC()
model = CalibratedClassifierCV(model_svc) 
model.fit(X_train, y_train)

使用pickle保存模型。

import pickle
filename = 'linearSVC.sav'
pickle.dump(model, open(filename, 'wb'))

使用pickle.load加载模型。

model = pickle.load(open(filename, 'rb'))

现在开始进行预测。

pred_class = model.predict(pred)
probability = model.predict_proba(pred)

1
如果有帮助的话,使用以下方法将模型进行序列化(pickling):
import pickle
pickle.dump(grid_svm, open('svm_sentiment_analyzer.pkl', 'wb'))

加载模型并进行预测。
svm_detector_reloaded = pickle.load(open('svm_sentiment_analyzer.pkl', 'rb'))
print(svm_detector_reloaded.predict_proba(["Today is an awesome day"])[0])

在重新运行代码并在Pandas sents DataFrame上训练模型后,返回了两个概率值。

grid_svm.fit(sents.Sentence.values, sents.Positive.values)

最佳实践(例如使用joblib)关于模型序列化可以在https://scikit-learn.org/stable/modules/model_persistence.html找到。


1
使用predprobs函数来计算auc(y_true, y_score)中要求的分数或概率/分数,问题是由于y_score引起的。 您可以按照以下代码将其转换。
# Classifier - Algorithm - SVM
# fit the training dataset on the classifier
SVM = svm.SVC(C=1.0, kernel='linear', degree=3, gamma='auto',probability=True)
SVM.fit(Train_X_Tfidf,Train_Y)
# predict the labels on validation dataset
predictions_SVM = SVM.predict(Test_X_Tfidf)
# Use accuracy_score function to get the accuracy
**print("SVM Accuracy Score -> ",accuracy_score(predictions_SVM, Test_Y))**

probs = SVM.**predict_proba**(Test_X_Tfidf)
preds = probs[:,1]
fpr, tpr, threshold = **roc_curve(Test_Y, preds)**
**print("SVM Area under curve -> ",auc(fpr, tpr))**

看一下accuracy_score和auc()之间的区别,你需要预测得分。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接