Spark中的VectorIndexer根据变量频率对分类特征进行索引。 但我想以不同的方式对分类特征进行索引。
例如,对于以下数据集,“a”、“b”和“c”将被索引为0、1、2,如果使用Spark中的VectorIndexer。但是我想根据标签对它们进行索引。有4行数据,它们被索引为1,其中3行具有'a'特征,1行具有'c'特征。因此,在这里,我将'a'索引为0,'c'索引为1,'b'索引为2。
是否有方便的方法来实现这一点?
例如,对于以下数据集,“a”、“b”和“c”将被索引为0、1、2,如果使用Spark中的VectorIndexer。但是我想根据标签对它们进行索引。有4行数据,它们被索引为1,其中3行具有'a'特征,1行具有'c'特征。因此,在这里,我将'a'索引为0,'c'索引为1,'b'索引为2。
是否有方便的方法来实现这一点?
label|feature
-----------------
1 | a
1 | c
0 | a
0 | b
1 | a
0 | b
0 | b
0 | c
1 | a