我在R中使用randomForest包和滚动窗口来预测金融时间序列(股票)的回报率。我为此开发了一组特征,我的目标是了解它们的相对预测能力。
我的挑战在于,我不能使用随机森林的变量重要性功能,因为我的大多数特征与它们的最近过去高度相关。例如,移动平均跨越几天的窗口,这意味着它包含数据集中几个观察值的信息。
这意味着由随机森林生成的out-of-bag样本将与随机森林用于训练模型的in-sample特征相关。因此,我从中得到的变量重要性将非常乐观和过度拟合。
我看到的解决方案是以某种方式计算测试集上的变量重要性,而不是使用OOB交叉验证。目标是确保与训练集绝对没有相关性。
我的问题是:是否存在一个可以从测试集中计算和提取变量重要性的R包,而不是标准的OOB交叉验证集?如果没有,您能否建议一种实现此目标的方法?谢谢您的帮助。
我的挑战在于,我不能使用随机森林的变量重要性功能,因为我的大多数特征与它们的最近过去高度相关。例如,移动平均跨越几天的窗口,这意味着它包含数据集中几个观察值的信息。
这意味着由随机森林生成的out-of-bag样本将与随机森林用于训练模型的in-sample特征相关。因此,我从中得到的变量重要性将非常乐观和过度拟合。
我看到的解决方案是以某种方式计算测试集上的变量重要性,而不是使用OOB交叉验证。目标是确保与训练集绝对没有相关性。
我的问题是:是否存在一个可以从测试集中计算和提取变量重要性的R包,而不是标准的OOB交叉验证集?如果没有,您能否建议一种实现此目标的方法?谢谢您的帮助。