很抱歉,你做不到。由于哈希是非单射的,因此没有反函数。换句话说,无限数量的标记可以映射到单个桶中,因此不可能确定实际上哪一个在那里。
如果您使用大型哈希表,且唯一标记数相对较低,则可以尝试从存储在数据集中的桶到可能的标记之间创建查找表。这是一对多的映射,但是如果满足上述条件,则冲突数量应该相对较低。
如果需要可逆转换,则可以使用组合Tokenizer
和StringIndexer
并手动构建稀疏特征向量。
另请参见:Spark使用什么哈希函数进行HashingTF,我如何复制它?
编辑:
在Spark 1.5+(PySpark 1.6+)中,您可以使用CountVectorizer
,它应用可逆转换并存储词汇表。
Python:
from pyspark.ml.feature import CountVectorizer
df = sc.parallelize([
(1, ["foo", "bar"]), (2, ["foo", "foobar", "baz"])
]).toDF(["id", "tokens"])
vectorizer = CountVectorizer(inputCol="tokens", outputCol="features").fit(df)
vectorizer.vocabulary
Scala:
import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
val df = sc.parallelize(Seq(
(1, Seq("foo", "bar")), (2, Seq("foo", "foobar", "baz"))
)).toDF("id", "tokens")
val model: CountVectorizerModel = new CountVectorizer()
.setInputCol("tokens")
.setOutputCol("features")
.fit(df)
model.vocabulary
其中0号位置的元素对应于索引0,1号位置的元素对应于索引1,以此类推。