scikit-learn: cross_val_predict仅适用于分区。

Question

scikit-learn: cross_val_predict仅适用于分区。

pythonscikit-learntime-seriescross-validation

11

我在努力学习如何在sklearn中实现TimeSeriesSplit。

以下链接中提供的建议会导致同样的ValueError。

sklearn TimeSeriesSplit交叉验证预测仅适用于分区

这是我的代码中相关部分：

from sklearn.model_selection import cross_val_predict
from sklearn import svm

features = df[df.columns[0:6]]
target = df['target']

clf = svm.SVC(random_state=0)

pred = cross_val_predict(clf, features, target, cv=TimeSeriesSplit(n_splits=5).split(features))

ValueError                                Traceback (most recent call last)
<ipython-input-57-d1393cd05640> in <module>()
----> 1 pred = cross_val_predict(clf, features, target, cv=TimeSeriesSplit(n_splits=5).split(features))

/home/jedwards/anaconda3/envs/py36/lib/python3.6/site-packages/sklearn/model_selection/_validation.py in cross_val_predict(estimator, X, y, groups, cv, n_jobs, verbose, fit_params, pre_dispatch, method)
    407 
    408     if not _check_is_permutation(test_indices, _num_samples(X)):
--> 409         raise ValueError('cross_val_predict only works for partitions')
    410 
    411     inv_test_indices = np.empty(len(test_indices), dtype=int)

ValueError: cross_val_predict only works for partitions

- James Edwards

如何在堆叠上下文中使用TimeSeriesSplit和cross_val_predict：https://datascience.stackexchange.com/a/105116/76808 - Marco Cerliani

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Matthijs Brouns · Accepted Answer

cross_val_predict无法与TimeSeriesSplit一起使用，因为TimeSeriesSplit的第一个分区永远不是测试数据集的一部分，这意味着没有针对它进行任何预测。

例如，当你的数据集为[1, 2, 3, 4, 5]时：

折叠1 - 训练集：[1]，测试集：[2]
折叠2 - 训练集：[1, 2]，测试集：[3]
折叠3 - 训练集：[1, 2, 3]，测试集：[4]
折叠4 - 训练集：[1, 2, 3, 4]，测试集：[5]

在所有的交叉验证中，1都不在测试集中。

如果你想要对2-5进行预测，你可以手动遍历由CV生成的拆分，并自行存储2-5的预测结果。