18得票1回答
如何指定默认dask调度器的线程/进程数

有没有一种方法可以限制默认线程调度程序(使用Dask数据框时的默认值)使用的核心数量?使用compute,您可以通过以下方式指定:df.compute(get=dask.threaded.get, num_workers=20) 但我想知道是否有一种方法可以将其设置为默认值,这样您就不需要为每...

17得票4回答
Dask连接(水平方向,轴=1,列)的简单方法

操作 将两个csv文件(data.csv和label.csv)读入一个数据框中。 Translated text: Action Reading two csv files (data.csv and label.csv) into a single dataframe.df = dd....

17得票1回答
如何在Dask中停止正在运行的任务?

使用Dask的分布式调度器时,我有一个在远程工作节点上运行的任务,我想要停止它。 我该如何停止它?我知道有一个cancel()方法,但如果任务已经开始执行,似乎无法起作用。

17得票1回答
将一个大的dask dataframe保存为parquet格式是否可行?

我有一个数据框,由100,000+行组成,每行有100,000列,共计10,000,000,000个浮点值。 之前我已经成功将它们读入一个 csv(以制表符分隔)文件中,并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录,如下所示: huge...

16得票3回答
我能否在Dask/Distributed中使用从.py文件导入的函数?

关于序列化和导入,我有一个问题。 函数是否应该有自己的导入?就像我在PySpark中看到的那样。 以下代码是否完全错误?mod.py需要成为conda/pip软件包吗?mod.py是写入共享文件系统的。 In [1]: from distributed import Executor ...

16得票3回答
如何将一个压缩的(gz格式)CSV文件读入dask Dataframe?

有没有办法将通过gz压缩的.csv文件读入dask dataframe? 我已经尝试直接使用以下方法:import dask.dataframe as dd df = dd.read_csv("Data.gz" ) 但是收到一个Unicode错误(可能是因为正在解释压缩的字节)。有一个"co...

16得票2回答
比较Modin | Dask | Data.table | Pandas在并行处理和超出内存的CSV文件方面的优劣

Dask、Modin 和 Data.table 的基本区别和主要用途是什么? 我查看了每个库的文档,它们似乎都提供了一种“类似”的解决方案来克服 pandas 的限制。

16得票2回答
Dask数据框架:如何获取行数?

简单问题:我有一个dask数据框,其中包含约3亿条记录。我需要知道数据框中确切的行数。有没有一种简单的方法来做到这一点? 当我尝试运行 dataframe.x.count().compute() 时,似乎它试图将整个数据加载到RAM中,但由于没有足够的空间而导致崩溃。

16得票2回答
在Python中高效读取1500万行CSV文件的方法

为了我的应用程序,我需要读取每个文件15M行的多个文件,将它们存储在DataFrame中,并以HDFS5格式保存DataFrame。 我已经尝试了不同的方法,特别是使用chunksize和dtype规范的pandas.read_csv和dask.dataframe。它们都需要大约90秒来处理...

16得票1回答
Dask分布式数据帧上的len函数运行缓慢

我一直在测试如何使用dask(具有20个核心的集群),惊讶于调用len函数与通过loc进行切片的速度差异。 import dask.dataframe as dd from dask.distributed import Client client = Client('192.168.1.2...