有没有一种方法可以直接将Spark数据框转换为Dask数据框?
我目前正在使用Spark的.toPandas()函数将其转换为Pandas数据框,然后再转换为Dask数据框。我认为这是低效的操作,没有充分利用Dask的分布式处理能力,因为Pandas始终是瓶颈。
有没有一种方法可以直接将Spark数据框转换为Dask数据框?
我目前正在使用Spark的.toPandas()函数将其转换为Pandas数据框,然后再转换为Dask数据框。我认为这是低效的操作,没有充分利用Dask的分布式处理能力,因为Pandas始终是瓶颈。
我可以为您提供一个涉及从每个Dask工作器调用pyspark的高效答案,但首先我应该指出,保存为parquet文件并加载结果可能是您可以使用的最快且最简单的方法。