我有以下代码,它使用dask distributed读取100个json文件:(工作节点数:5 内核:5 内存:50.00 GB)
from dask.distributed import Client
import dask.dataframe as dd
client = Client('xxxxxxxx:8786')
df = dd.read_json('gs://xxxxxx/2018-04-18/data-*.json')
df = client.persist(df)
当我运行代码时,我只看到一个工作线程负责执行read_json()任务,然后我遇到了内存错误和WorkerKilled错误。
我应该手动读取每个文件并进行连接吗?还是dask应该在底层处理它?