19得票1回答
如何使用Dask来利用所有CPU核心?

我有一个超过35000行的pandas系列。我想使用dask使其更高效。然而,我发现无论是dask代码还是pandas代码都需要相同的时间。 最初的"ser"是一个pandas系列,fun1和fun2是基本函数,用于在系列的各个行中执行模式匹配。ser = ser.appl...

13得票1回答
理解Dask分布式的内存行为

类似于这个问题,我在使用Dask分布式时遇到了内存问题。不过,在我的情况下,问题并不是客户端尝试收集大量数据。 问题可以基于一个非常简单的任务图形来说明:一系列delayed操作生成一些随机的DataFrame,大小固定为约500 MB(模拟从文件加载多个分区)。任务图中的下一个操作是获取每...

12得票1回答
延迟函数拆包的结果

在使用delayed转换我的程序时,我遇到了一种常用的编程模式,但它不能与delayed一起使用。示例:from dask import delayed @delayed def myFunction(): return 1,2 a, b = myFunction() a.compu...

11得票1回答
Dask中的排序

我想在 dask 中找到 pandas.dataframe.sort_value 函数的替代方法。 我找到了 set_index,但它只能按单个列排序。 如何对 Dask 数据框的多列进行排序?

10得票1回答
当合并字典时,Dask延迟对象长度未指定且不可迭代错误。

我正在尝试使用dask并行构建一个字典,但是我遇到了一个TypeError: Delayed objects of unspecified length are not iterable。 我正在尝试同时计算 add, subtract, 和 multiply 以便更快地构建字典。 这里有...

7得票2回答
Dask工作节点存储结果或文件的默认目录是什么?

[mapr@impetus-i0057 latest_code_deepak]$ dask-worker 172.26.32.37:8786 distributed.nanny - INFO - Start Nanny at: 'tcp://172.26.32.36:50930...

7得票1回答
Dask并行循环

我正在尝试找到在使用dask delayed时使用for循环的正确语法。我找到了几个教程和其他问题,但没有适合我极其基本条件的内容。 首先,这是并行运行for循环的正确方式吗? %%time list_names=['a','b','c','d'] keep_return=[] @de...

7得票1回答
dask.compute()中的重试机制不明确

根据文档,“如果计算结果失败,允许的自动重试次数。” “结果”是指每个单独的任务还是整个compute()调用? 如果是针对整个调用,如何在dask.delayed中为每个任务实现重试? 此外,我不确定重试是否起作用,如下所示: import dask import random @...