将Spark DataFrame转换为Dask DataFrame。

7

有没有一种方法可以直接将Spark数据框转换为Dask数据框?

我目前正在使用Spark的.toPandas()函数将其转换为Pandas数据框,然后再转换为Dask数据框。我认为这是低效的操作,没有充分利用Dask的分布式处理能力,因为Pandas始终是瓶颈。


请提供更多信息:这是单节点设置(Dask和Spark),如果不是,所有Dask工作节点是否都可以访问Spark? - mdurant
@mdurant 这是一个完整的 Hadoop 集群。Dask 目前已安装在集群的边缘节点上,并计划在不久的将来使用 dask-yarn 包。 - vva
你成功将 Spark DataFrame 转换为 Dask DataFrame 了吗? - Coder
1个回答

1

我可以为您提供一个涉及从每个Dask工作器调用pyspark的高效答案,但首先我应该指出,保存为parquet文件并加载结果可能是您可以使用的最快且最简单的方法。


我有一个疑问。这样做不会在逻辑上产生循环吗?使用Spark将数据转换为parquet,然后再使用Dask。如果Spark处理的数据已经是parquet格式的,那该怎么办呢?有没有办法确保Spark和Dask能够像Pandas和Spark一样协同工作? - vva
5
如果数据已经是Parquet格式,可以直接使用Dask加载吗? - mdurant

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接