19得票5回答
无法运行基本的GraphFrames示例

尝试使用pyspark运行一个简单的GraphFrame示例。 Spark版本: 2.0 GraphFrame版本: 0.2.0 我能够在Jupyter中导入GraphFrames:from graphframes import GraphFrame GraphFrame graphfr...

9得票1回答
使用Pyspark从关系型数据集构建层次结构

我对 Python 还很陌生,现在遇到了从关系数据集中构建层级的问题。如果有人有想法并能提供帮助,那将非常感激。 我手头有一个关系数据集,其中包含类似以下数据: _currentnode, childnode_ root, child1 child1, ...

8得票4回答
没有找到名为graphframes的模块 Jupyter Notebook

我正在遵循这个安装指南,但在使用graphframes时遇到了以下问题。 from pyspark import SparkContext sc =SparkContext() !pyspark --packages graphframes:graphframes:0.5.0-spark2....

8得票2回答
使用Spark Graphframes进行分区

我正在使用Spark Graphframes处理一个较大的图(6000万个顶点和95亿条边)。底层数据并不大——顶点在磁盘上占用约500MB,而边则占用约40GB。我的容器经常因为Java堆内存不足而关闭,但我认为根本问题在于Graphframe不断地传输数据(我看到shuffle读/写达到1...

7得票4回答
PySpark GraphFrame的适当子图化

GraphFrames是一个基于PySpark DataFrames的网络分析工具。下面的代码是教程子图示例的修改版本: from graphframes.examples import Graphs import graphframes g = Graphs(sqlContext).fri...