在进行任何探索性数据分析之前,是将数据拆分为训练集和测试集还是仅基于训练数据进行所有探索?
我正在开展我的第一个完整的机器学习项目(课程毕业项目的推荐系统),并且正在寻求操作顺序的澄清。 我大致的概要是导入和清理数据,进行探索性分析,训练模型,然后在测试集上进行评估。
我现在正在进行探索性数据分析 - 最初没有特别的内容,只是从变量分布等方面入手。 但我不确定:我应该在探索性分析之前或之后将数据拆分为训练集和测试集呢?
我不想通过检查测试集来潜在地污染算法训练。 然而,我也不想错过可能反映真实信号的视觉趋势,而我的肉眼在过滤后可能看不到,因此可能会错过在设计算法时调查一个重要和相关的方向。
我查看了其他的帖子,比如这个,但我发现它们更多地涉及正则化或对原始数据的实际操作。我找到的答案各不相同,但优先考虑先进行拆分。然而,在将数据拆分之前,我不打算对数据进行任何实际操作(除了检查分布并可能进行某些因子转换)。在您自己的工作中,您会怎么做以及为什么?
感谢您帮助新程序员!