将Spark DataFrame转换为Dask DataFrame。

Question

7

有没有一种方法可以直接将Spark数据框转换为Dask数据框？

我目前正在使用Spark的.toPandas()函数将其转换为Pandas数据框，然后再转换为Dask数据框。我认为这是低效的操作，没有充分利用Dask的分布式处理能力，因为Pandas始终是瓶颈。

- vva

请提供更多信息：这是单节点设置（Dask和Spark），如果不是，所有Dask工作节点是否都可以访问Spark？ - mdurant

@mdurant 这是一个完整的 Hadoop 集群。Dask 目前已安装在集群的边缘节点上，并计划在不久的将来使用 dask-yarn 包。 - vva

你成功将 Spark DataFrame 转换为 Dask DataFrame 了吗？ - Coder

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mdurant · Accepted Answer

我可以为您提供一个涉及从每个Dask工作器调用pyspark的高效答案，但首先我应该指出，保存为parquet文件并加载结果可能是您可以使用的最快且最简单的方法。