确定数据集中离散图数量的算法

Question

确定数据集中离散图数量的算法

algorithmmapreducegraph-theorygraph-algorithm

3

我有一个数据集，其中包含顶点及其连接到的其他顶点。该数据集表示一个无向图。我想要确定的是该数据集中存在多少个不连通的离散图。

例如下面的数据（顶点，连接顶点的数组）将表示两个不连通的离散图：

123,[567,345]
345,[123,567,789]
567,[123,345]
789,[345]
321,[987]
987,[321]

在这样一个小的数据集上，我很容易想象出答案的方法，但是当我将其扩展到数亿个顶点的数据集时，我不确定是否有任何非常高效的方法。我倾向于做一些可以在Hadoop上运行的事情，但无论是直接编写MapReduce作业还是使用像Giraph或Faunus这样的工具，我都希望能得到一些建议。

谢谢。

- Nick

我认为你指的是图的不连通组件。为了实现这一点，可以迭代地从未访问过的顶点开始BFS，保持一个计数器，每次启动新的BFS时将其增加一，并使用该计数器标记已访问顶点的节点。最终，您将拥有连接组件的数量以及将它们分成这些组件的顶点的标记。 - G. Bach

查看Tarjan算法 - user1406062

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tyler Durden · Accepted Answer

正如巴赫在评论中所说，这个问题，即“识别连通组件”，通常通过普通的广度优先搜索来解决。Skiena给出了基本算法如下：

connected_components( graph *g ){
   int c, i; /* component number and counter */
   initialize_search( g );
   c = 0;
   for( i = 1; i <= g->num_vertices; i++ ){
      if( discovered[i] == FALSE ){
         c += 1;
         printf( "component %d: ", c );
         bfs( g, i );  // breadth first search
         printf( "\n" );
      }
    }
}