保留索引字符串对应关系的 Spark 字符串索引器

16

Spark的StringIndexer非常有用,但通常需要检索生成的索引值和原始字符串之间的对应关系,似乎应该有一种内置的方法来实现这一点。我将使用Spark文档中的这个简单示例进行说明:

from pyspark.ml.feature import StringIndexer

df = sqlContext.createDataFrame(
    [(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")],
    ["id", "category"])
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")
indexed_df = indexer.fit(df).transform(df)

这个简化的案例给我们:

+---+--------+-------------+
| id|category|categoryIndex|
+---+--------+-------------+
|  0|       a|          0.0|
|  1|       b|          2.0|
|  2|       c|          1.0|
|  3|       a|          0.0|
|  4|       a|          0.0|
|  5|       c|          1.0|
+---+--------+-------------+

一切都好,但对于许多用例,我想知道我的原始字符串和索引标签之间的映射关系。我可以即兴想到的最简单的方法是这样的:

   In [8]: indexed.select('category','categoryIndex').distinct().show()
+--------+-------------+
|category|categoryIndex|
+--------+-------------+
|       b|          2.0|
|       c|          1.0|
|       a|          0.0|
+--------+-------------+

如果我想的话,可以将结果存储为字典或类似的东西:

In [12]: mapping = {row.categoryIndex:row.category for row in
           indexed.select('category','categoryIndex').distinct().collect()}

In [13]: mapping
Out[13]: {0.0: u'a', 1.0: u'c', 2.0: u'b'}

我的问题是:由于这是一个常见的任务,我猜想(但当然可能是错的)字符串索引器以某种方式已经存储了这个映射,是否有一种更简单的方法来完成上述任务?

我的解决方案比较直接,但对于大型数据结构,这将涉及大量额外的计算,而我可能可以避免。有什么想法吗?

1个回答

15
meta = [
    f.metadata for f in indexed_df.schema.fields if f.name == "categoryIndex"
]
meta[0]
## {'ml_attr': {'name': 'category', 'type': 'nominal', 'vals': ['a', 'c', 'b']}}

其中ml_attr.vals提供了位置和标签之间的映射:

dict(enumerate(meta[0]["ml_attr"]["vals"]))
## {0: 'a', 1: 'c', 2: 'b'}

Spark 1.6+

您可以使用IndexToString将数值转换为标签。这将使用如上所示的列元数据。

from pyspark.ml.feature import IndexToString

idx_to_string = IndexToString(
    inputCol="categoryIndex", outputCol="categoryValue")

idx_to_string.transform(indexed_df).drop("id").distinct().show()
## +--------+-------------+-------------+
## |category|categoryIndex|categoryValue|
## +--------+-------------+-------------+
## |       b|          2.0|            b|
## |       a|          0.0|            a|
## |       c|          1.0|            c|
## +--------+-------------+-------------+

Spark <= 1.5

这是一个不太优雅的解决方案,但您可以通过以下方式从Java索引器中提取标签:

from pyspark.ml.feature import StringIndexerModel

# A simple monkey patch so we don't have to _call_java later 
def labels(self):
    return self._call_java("labels")

StringIndexerModel.labels = labels

# Fit indexer model
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex").fit(df)

# Extract mapping
mapping = dict(enumerate(indexer.labels()))
mapping
## {0: 'a', 1: 'c', 2: 'b'}

仅使用enumerate(indexer.labels())不能保证相同的排序,因为stringIndexer默认使用频率来索引类别。 - Ayush
Pyspark 1.6+解决方案与仅使用“indexed_df.drop('id').distinct().show()”有何不同?其中“category”和“categoryValue”是相同的。 - blacksite

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接