Spark的StringIndexer非常有用,但通常需要检索生成的索引值和原始字符串之间的对应关系,似乎应该有一种内置的方法来实现这一点。我将使用Spark文档中的这个简单示例进行说明:
from pyspark.ml.feature import StringIndexer
df = sqlContext.createDataFrame(
[(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")],
["id", "category"])
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")
indexed_df = indexer.fit(df).transform(df)
这个简化的案例给我们:
+---+--------+-------------+
| id|category|categoryIndex|
+---+--------+-------------+
| 0| a| 0.0|
| 1| b| 2.0|
| 2| c| 1.0|
| 3| a| 0.0|
| 4| a| 0.0|
| 5| c| 1.0|
+---+--------+-------------+
一切都好,但对于许多用例,我想知道我的原始字符串和索引标签之间的映射关系。我可以即兴想到的最简单的方法是这样的:
In [8]: indexed.select('category','categoryIndex').distinct().show()
+--------+-------------+
|category|categoryIndex|
+--------+-------------+
| b| 2.0|
| c| 1.0|
| a| 0.0|
+--------+-------------+
如果我想的话,可以将结果存储为字典或类似的东西:
In [12]: mapping = {row.categoryIndex:row.category for row in
indexed.select('category','categoryIndex').distinct().collect()}
In [13]: mapping
Out[13]: {0.0: u'a', 1.0: u'c', 2.0: u'b'}
我的问题是:由于这是一个常见的任务,我猜想(但当然可能是错的)字符串索引器以某种方式已经存储了这个映射,是否有一种更简单的方法来完成上述任务?
我的解决方案比较直接,但对于大型数据结构,这将涉及大量额外的计算,而我可能可以避免。有什么想法吗?
enumerate(indexer.labels())
不能保证相同的排序,因为stringIndexer默认使用频率来索引类别。 - Ayush