这类似于scikit-learn中的LabelEncoder,但要求按照类别频率顺序进行数字值分配,即分配最高/最低(根据用例而定)数字的类别具有更高的出现频率。
例如,如果变量可以取值[a, b, c]
,并且具有以下频率:
Category
0 a
0 a
0 a
0 a
0 a
1 b
1 b
1 b
1 b
1 b
1 b
1 b
1 b
1 b
1 b
2 c
2 c
a
出现了5次,b
出现了10次,c
出现了2次。
然后我希望替换为b=1
,a=2
和c=3
。