我有一个关于GridSearchCV
的问题:
通过使用以下代码:
gs_clf = GridSearchCV(pipeline, parameters, n_jobs=-1, cv=6, scoring="f1")
我指定要使用6折交叉验证,对吗?
这意味着我的语料库会被分成训练集和测试集,共进行6次。
那么这是否意味着在GridSearchCV
中我需要使用整个语料库,如下所示:
gs_clf = gs_clf.fit(corpus.data, corpus.target)
如果是这样,我该如何使用训练集进行预测方法呢?请保留HTML标签。
predictions = gs_clf.predict(??)
我曾经见过的一些代码,将语料库使用train_test_split
分成测试集和训练集,然后将X_train
和Y_train
传递给gs_clf.fit
。
但是这对我来说没有意义:如果事先将语料库分割,为什么还要在GridSearchCV
中再次使用交叉验证呢?
谢谢帮助澄清!!