得票数最多 'dask-delayed' 问题

关联标签

19得票1回答

我有一个超过35000行的pandas系列。我想使用dask使其更高效。然而，我发现无论是dask代码还是pandas代码都需要相同的时间。最初的"ser"是一个pandas系列，fun1和fun2是基本函数，用于在系列的各个行中执行模式匹配。ser = ser.appl...

13得票1回答

类似于这个问题，我在使用Dask分布式时遇到了内存问题。不过，在我的情况下，问题并不是客户端尝试收集大量数据。问题可以基于一个非常简单的任务图形来说明：一系列delayed操作生成一些随机的DataFrame，大小固定为约500 MB（模拟从文件加载多个分区）。任务图中的下一个操作是获取每...

12得票1回答

在使用delayed转换我的程序时，我遇到了一种常用的编程模式，但它不能与delayed一起使用。示例：from dask import delayed @delayed def myFunction(): return 1,2 a, b = myFunction() a.compu...

11得票1回答

我想在 dask 中找到 pandas.dataframe.sort_value 函数的替代方法。我找到了 set_index，但它只能按单个列排序。如何对 Dask 数据框的多列进行排序？

10得票1回答

我正在尝试使用dask并行构建一个字典，但是我遇到了一个TypeError: Delayed objects of unspecified length are not iterable。我正在尝试同时计算 add, subtract, 和 multiply 以便更快地构建字典。这里有...

7得票2回答

[mapr@impetus-i0057 latest_code_deepak]$ dask-worker 172.26.32.37:8786 distributed.nanny - INFO - Start Nanny at: 'tcp://172.26.32.36:50930...

7得票1回答

我正在尝试找到在使用dask delayed时使用for循环的正确语法。我找到了几个教程和其他问题，但没有适合我极其基本条件的内容。首先，这是并行运行for循环的正确方式吗？ %%time list_names=['a','b','c','d'] keep_return=[] @de...

7得票1回答

根据文档，“如果计算结果失败，允许的自动重试次数。” “结果”是指每个单独的任务还是整个compute()调用？如果是针对整个调用，如何在dask.delayed中为每个任务实现重试？此外，我不确定重试是否起作用，如下所示： import dask import random @...