我想使用RandomSplits在Spark中进行两个交叉验证过程,分别是:
1. CV_global:将数据拆分为训练集90%和测试集10%。
1.1. CV_grid:在训练集的一半(即45%的数据)上进行网格搜索。
1.2. Fit Model:使用CV_grid中最佳设置在训练集(90%)上进行拟合模型。
1.3 Test Model:在测试集(10%)上测试模型。
2. 每10折报告平均指标和全局指标。
问题是我只找到了在整个训练集上使用CV和Grid search的示例。
如何从CV_grid中获取最佳表现模型的参数?
如何进行CV而不进行网格搜索,但获得每个fold的统计数据?例如sklearn.cross_validation.cross_val_score。
1. CV_global:将数据拆分为训练集90%和测试集10%。
1.1. CV_grid:在训练集的一半(即45%的数据)上进行网格搜索。
1.2. Fit Model:使用CV_grid中最佳设置在训练集(90%)上进行拟合模型。
1.3 Test Model:在测试集(10%)上测试模型。
2. 每10折报告平均指标和全局指标。
问题是我只找到了在整个训练集上使用CV和Grid search的示例。
如何从CV_grid中获取最佳表现模型的参数?
如何进行CV而不进行网格搜索,但获得每个fold的统计数据?例如sklearn.cross_validation.cross_val_score。
apache-spark
不支持这个功能,你必须自己使用DataFrames
或RDDs
来完成。这并不难(我已经做过了)。 - Alberto Bonsanto