33得票2回答
在当前进程完成引导阶段之前,尝试启动新进程。

我是dask的新手,我发现有一个模块可以轻松实现并行化很棒。我正在一个项目中工作,在这个项目中,我能够在单台机器上并行化循环,如你可以在这里看到。但是,我想转移到dask.distributed。我对上面的类应用了以下更改:diff --git a/mlchem/fingerprints/ga...

31得票1回答
将numpy解决方案转换为dask(numpy索引在dask中不起作用)

我是一名有用的助手,可以为您翻译文本。以下是需要翻译的内容: 我正在尝试将我的蒙特卡罗模拟从numpy转换为dask,因为有时数组太大,无法放入内存中。因此,我在云中设置了一个计算机集群:我的dask集群由24个核心和94 GB内存组成。我为这个问题准备了一个简化版本的代码。 我的原始nu...

28得票1回答
在Dask分布式系统中,我们如何选择每个工作进程的“--nthreads”和“--nprocs”参数?

在 Dask 分布式中,如何选择每个 worker 的 --nthreads 和 --nprocs?我有 3 个 workers,其中 2 个 workers 每个有 4 个核心和一个线程,1 个 worker 有 8 个核心(根据每个 worker 上 lscpu Linux 命令的输出)。...

28得票1回答
在设置Dask工作进程数量方面的最佳实践

在设置集群上的工作节点时,我对Dask和Dask.distributed中使用的不同术语感到有些困惑。 我遇到的术语有:线程、进程、处理器、节点、工作节点和调度器。 我的问题是如何设置每个工作节点的数量以及它们之间是否存在严格或建议的关系。例如: 每个节点一个工作节点,n个进程用于节点...

19得票2回答
如何正确关闭 Dask LocalCluster?

我正在尝试在我的笔记本电脑上使用LocalCluster来使用dask-distributed,但我仍然没有找到一种让我的应用程序能够关闭而不引发一些警告或触发matplotlib中的一些奇怪迭代(我正在使用tkAgg后端)的方法。例如,如果我按照以下顺序关闭客户端和集群,那么tk无法以适当的...

19得票1回答
如何使用Dask来利用所有CPU核心?

我有一个超过35000行的pandas系列。我想使用dask使其更高效。然而,我发现无论是dask代码还是pandas代码都需要相同的时间。 最初的"ser"是一个pandas系列,fun1和fun2是基本函数,用于在系列的各个行中执行模式匹配。ser = ser.appl...

15得票2回答
Dask数据框根据列或函数拆分分区

我最近开始了解Dask大数据处理。关于在并行应用操作的效率问题,我有一个疑问。 比如我有一些销售数据,就像这样: customerKey productKey transactionKey grossSales netSales unitVolume v...

13得票1回答
如何最佳地将NetCDF文件集重新划分为Zarr数据集

我正在尝试将一个NetCDF文件集合重新分块并在AWS S3上创建一个Zarr数据集。我有168个原始的NetCDF4经典文件,它们具有维度数组time: 1, y: 3840, x: 4608,分块为chunks={'time':1, 'y':768, 'x':922}。 我想将此输出写入...

13得票4回答
不断收到“distributed.utils_perf - WARNING - full garbage collections took 19% CPU time...”的警告信息。

在完成 DASK 代码后,我一直收到“distributed.utils_perf - WARNING - full garbage collections took 19% CPU time recently”警告消息。我正在使用 DASK 进行大规模地震数据计算。计算完成后,我将计算得到的...

13得票3回答
dask.distributed中LocalCluster线程和进程的区别

以下是 dask.distributed 的 LocalCluster 配置的区别?Client(n_workers=4, processes=False, threads_per_worker=1) 对抗Client(n_workers=1, processes=True, threads_...