如何使用pyspark计算出现次数

Question

如何使用pyspark计算出现次数

6

我将使用pyspark来统计出现次数。假设我有以下数据：

data = sc.parallelize([(1,[u'a',u'b',u'd']),
                       (2,[u'a',u'c',u'd']),
                       (3,[u'a']) ])

count = sc.parallelize([(u'a',0),(u'b',0),(u'c',0),(u'd',0)])

能否统计在data中出现的次数并更新到count中？

结果应该像[(u'a',3),(u'b',1),(u'c',1),(u'd',2)]这样。

- someone

3个回答

3

RDD是不可变的，因此无法进行更新。相反，您可以根据数据计算计数：

count = (rdd
         .flatMap(lambda (k, data): data)
         .map(lambda w: (w,1))
         .reduceByKey(lambda a, b: a+b))

如果结果可以适应主内存，请随意从计数中执行 .collect() 操作。

- Ben. B.

1

由于RDD是不可变的，因此您不需要更新count。只需运行所需的计算，然后直接保存到任何变量即可：

In [17]: data.flatMap(lambda x: x[1]).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y).collect()
Out[17]: [('b', 1), ('c', 1), ('d', 2), ('a', 3)]

- chrisaycock

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user6022341 · Accepted Answer

我会使用Counter：

>>> from collections import Counter
>>>
>>> data.values().map(Counter).reduce(lambda x, y: x + y)
Counter({'a': 3, 'b': 1, 'c': 1, 'd': 2})