我已经阅读了关于处理分类数据中缺失值的替换缺失值。
数据集有大约 6 个分类列
存在 缺失值
。这将用于二元分类问题。
我看到不同的方法,其中一种是只需将类别列中的缺失值保留为原样
,另一种是使用from sklearn.preprocessing import Imputer
进行插补,但不确定哪种更好。
如果插补
是更好的选择,那么在应用模型之前,我可以使用哪些库,例如LR、决策树、随机森林
。
谢谢!
我已经阅读了关于处理分类数据中缺失值的替换缺失值。
数据集有大约 6 个分类列
存在 缺失值
。这将用于二元分类问题。
我看到不同的方法,其中一种是只需将类别列中的缺失值保留为原样
,另一种是使用from sklearn.preprocessing import Imputer
进行插补,但不确定哪种更好。
如果插补
是更好的选择,那么在应用模型之前,我可以使用哪些库,例如LR、决策树、随机森林
。
谢谢!
处理缺失数据的方法有多种:
针对 @CoMartel 的回答,
没有特定的规则可以保证您获得良好的结果。您需要逐一检查所有已知的方法并观察模型的表现。
但是,如果某列的缺失值比例非常高(例如超过总行数的50%。阈值也可能有所不同),最好删除该列。
此外,如果您的分类数据缺失,应尽量避免使用平均值。假设您将其中一个类别编码为1,另一个类别编码为2,但平均值为2.5,则实际上不代表任何类别。众数比平均值和中位数更好。