我正在学习过程中阅读现有的Spark代码,我遇到了以下代码:
enPages.map(lambda x: x.split(" "))\
.map(lambda x: (x[2], int(x[3])))\
.reduceByKey(lambda x, y: x + y, 40)\
.collect()
我对reduceByKey和lambda的工作原理有基本的了解,但是在上面的代码中,我不理解reduceByKey/lambda函数中的'40'的用途。如果能有任何澄清就好了。
谢谢,Sasi。
PS:我尝试删除'40'并比较输出,只发现键/值对的顺序已经改变,但对于给定的键,值的计数在最终输出中是相同的。