我完全是scikit-learn的新手。
我想知道当我想要将测试数据集上相同特征的分类数据转换时,是否应该使用与训练数据集上相同的Label Encoder实例。这意味着像下面这样:
from sklearn import preprocessing
# trainig data label encoding
le_blood_type = preprocessing.LabelEncoder()
df_training[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_training[ 'BLOOD_TYPE' ] ) # labeling from string
....
1. Using same label encoder
df_test[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
2. Using different label encoder
le_for_test_blood_type = preprocessing.LabelEncoder()
df_test[ 'BLOOD_TYPE' ] = le_for_test_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
哪一个是正确的代码呢? 但无论我选择上面的哪个代码都没有关系,因为训练数据集中的分类数据和测试数据集中的分类数据应该是相同的。
fit_transform()
,并在另一个程序中执行transform()
,请参考此答案 https://dev59.com/al4b5IYBdhLWcg3wzUja#55895639。 - Shady Mohamed Sherif