我有一个回归模型,其中因变量是连续的,但九十%的自变量是分类的(包括有序和无序的),并且约百分之三十的记录存在缺失值(更糟糕的是,它们是随机缺失,没有任何模式,也就是说,超过四十五%的数据至少有一个缺失值)。在运行回归之前,降低维度是关键任务之一,因为没有先验理论可选择模型规格。虽然我知道几种用于连续变量的维度约减方法,但我不知道是否有类似的统计文献适用于分类数据(除了作为对频率表基本上是主成分分析的对应分析的一部分)。此外,数据集的大小为500000个观测值,共200个变量。 我有两个问题。
- 是否有针对分类数据的好的统计参考资料,以及强大的插补方法(我认为第一个问题是插补,然后才是降维)?
- 这与实现上述问题有关。我之前广泛使用R,并倾向于为连续变量大量使用transcan和impute函数,并使用树方法的变体来填充分类值。我对Python有工作知识,因此如果有适用于此目的的好东西,我会使用它。 有关Python或R的任何实现提示都将非常有帮助。谢谢。
mice
包现在已经 404。 - Srinath Ganesh