我正在尝试理解使用MapReduce实现PageRank的一个问题。
我有以下简单场景,三个节点:A、B、C。
邻接矩阵如下:
A { B, C }
B { A }
例如,B的PageRank等于:
(1-d)/N + d ( PR(A) / C(A) )
N = number of incoming links to B
PR(A) = PageRank of incoming link A
C(A) = number of outgoing links from page A
我对所有原理图以及映射器和减少器的工作方式都很满意,但我无法理解在减少器计算时,如何知道C(A)的值。 当减少器通过聚合链接到B的传入链接来计算B的PageRank时,如何知道每个页面的发出链接数量。 是否需要在某些外部数据源中查找?