12得票1回答
什么导致了使用CancelledError异常的Dask作业失败

我一直看到下面的错误消息,但一直无法确定是什么导致了失败。 错误:concurrent.futures._base.CancelledError: ('sort_index-f23b0553686b95f2d91d4a3fda85f229', 7) 重启 dask 集群后,它能够成功运行。

11得票1回答
数值错误:并非所有部门都已知,无法对齐Dask数据帧分区上的错误。

我有一个带有以下列的pandas数据框: user_id user_agent_id requests 所有列都包含整数。我想对它们执行一些操作,并使用dask dataframe运行它们。这是我的做法。 user_profile = cache_records_dataframe[[...

11得票3回答
Dask:对Dataframe进行groupBy操作的nunique方法

我想知道在Dask中进行groupBy聚合后,是否有可能得到给定列的唯一项数。 我在文档中没有看到这方面的信息。在pandas dataframe中可以使用这个功能,非常实用。我看到了一些相关问题,但不确定是否已实现。 能否有人给我一些关于这个问题的提示?

11得票1回答
Dask中的排序

我想在 dask 中找到 pandas.dataframe.sort_value 函数的替代方法。 我找到了 set_index,但它只能按单个列排序。 如何对 Dask 数据框的多列进行排序?

10得票2回答
dask-worker 在任务之间保留的内存

简介 我正在使用dask.distributed(尴尬地并行任务)并行化一些代码。 我有一个路径列表,指向不同的图像,并将其散布到工作进程。 每个工作进程加载和过滤一张图像(3D堆栈),并进行一些过滤。使用scipy进行3D过滤会保存中间输出。 每个过滤后的图像被保存为npy和/或png...

9得票2回答
分布式工作节点内存使用率高,但工作节点没有数据需要存储到磁盘。

distributed.worker - WARNING - Memory use is high but worker has no data to store to disk. Perhaps some other process is leaking memory? Process ...

7得票2回答
Dask工作节点存储结果或文件的默认目录是什么?

[mapr@impetus-i0057 latest_code_deepak]$ dask-worker 172.26.32.37:8786 distributed.nanny - INFO - Start Nanny at: 'tcp://172.26.32.36:50930...

7得票1回答
如何检查是否存在正在运行的 Dask 调度程序?

我想从Python中启动一个包含特定数量工作进程的本地集群,然后将客户端连接到它。 cluster = LocalCluster(n_workers=8, ip='127.0.0.1') client = Client(cluster) 但在此之前,我想检查是否存在本地集群,例如通过da...

7得票2回答
Dask中pd.to_numeric的等效方法

我尝试使用dask read_csv读取多个15GB的CSV文件。在执行此任务时,dask将某个列解释为浮点数,但它有一些字符串类型的值。稍后,当我尝试执行某些操作时,它会失败并声明无法将字符串转换为浮点数。因此,我使用了dtype=str参数将所有列都读取为字符串。现在我想使用errors=...

7得票1回答
将Spark DataFrame转换为Dask DataFrame。

有没有一种方法可以直接将Spark数据框转换为Dask数据框? 我目前正在使用Spark的.toPandas()函数将其转换为Pandas数据框,然后再转换为Dask数据框。我认为这是低效的操作,没有充分利用Dask的分布式处理能力,因为Pandas始终是瓶颈。