我有一个数据集,其中包含一个类别列。为了使用线性回归,我对该列进行了1-hot编码。
我的数据集有10列,包括类别列。在删除该列并添加1-hot编码矩阵后,我得到了14列(10-1+5)。
因此,我使用形状为(n,14)的矩阵来训练(fit)我的LinearRegression模型。
在训练完模型后,我想在训练集的子集上进行测试,所以我只取前5个并将它们通过相同的流程处理。但是这5个只包含3个类别。因此,在经过流程处理后,我只剩下形状为(n,13)的矩阵,因为缺少2个类别。
如何强制1-hot编码器使用这5个类别?
我正在使用sklearn中的LabelBinarizer。
我的数据集有10列,包括类别列。在删除该列并添加1-hot编码矩阵后,我得到了14列(10-1+5)。
因此,我使用形状为(n,14)的矩阵来训练(fit)我的LinearRegression模型。
在训练完模型后,我想在训练集的子集上进行测试,所以我只取前5个并将它们通过相同的流程处理。但是这5个只包含3个类别。因此,在经过流程处理后,我只剩下形状为(n,13)的矩阵,因为缺少2个类别。
如何强制1-hot编码器使用这5个类别?
我正在使用sklearn中的LabelBinarizer。