使用Spark Streaming从流数据构建图形

6

我刚接触Spark,需要构建一个共现图(在一条推文中,单词将成为节点,如果这些单词来自同一条推文,我们就在它们之间添加一条边),从流数据中获取,例如Twitter推文。我们可以使用Spark Streaming构建实时的共现推特图吗?Spark Streaming是否适用于此用例?我不确定是否可以使用Spark Streaming进行操作。如果不能,有哪些替代方案?


有人能回答这个问题吗? - Naren
我猜 Spark GraphX 使用的是针对批处理设计的 Google Pregel 计算模型。Flink Gelly 也采用了同样的方法。我一直在尝试自己找到一个可以处理流数据图处理的库。到目前为止,我只发现了一个实验性的单通道图形流处理库,它建立在 Flink 之上。https://github.com/vasia/gelly-streaming.git。如果你有任何发现,请告诉我。 :) - Raxit Solanki
1个回答

1
联现频率可以看作是一个图表或邻接矩阵,但这是您单词列表的大型稀疏直方图(频率计数)的产品空间。最可能您希望检测移动窗口相关性,因此应设计草图数据结构以跟踪流中出现率异常增加或减少。例如,对每个单词对应用计数布隆过滤器或计数最小草图-请参见http://twitter.github.io/algebird/#com.twitter.algebird.CMSCounting

抱歉,我无法理解您想表达的内容。您能否详细说明一下您所说的事情? - Naren

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接