得票数最多 'dask' 问题 - 第5页

关联标签

18得票1回答

如何指定默认dask调度器的线程/进程数

有没有一种方法可以限制默认线程调度程序（使用Dask数据框时的默认值）使用的核心数量？使用compute，您可以通过以下方式指定：df.compute(get=dask.threaded.get, num_workers=20) 但我想知道是否有一种方法可以将其设置为默认值，这样您就不需要为每...

pythondask

17得票4回答

Dask连接（水平方向，轴=1，列）的简单方法

操作将两个csv文件（data.csv和label.csv）读入一个数据框中。 Translated text: Action Reading two csv files (data.csv and label.csv) into a single dataframe.df = dd....

pythonpandasdask

17得票1回答

如何在Dask中停止正在运行的任务？

使用Dask的分布式调度器时，我有一个在远程工作节点上运行的任务，我想要停止它。我该如何停止它？我知道有一个cancel()方法，但如果任务已经开始执行，似乎无法起作用。

dask

17得票1回答

将一个大的dask dataframe保存为parquet格式是否可行？

我有一个数据框，由100,000+行组成，每行有100,000列，共计10,000,000,000个浮点值。之前我已经成功将它们读入一个 csv（以制表符分隔）文件中，并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录，如下所示： huge...

pythondataframeparquetdaskfastparquet

16得票3回答

我能否在Dask/Distributed中使用从.py文件导入的函数？

关于序列化和导入，我有一个问题。函数是否应该有自己的导入？就像我在PySpark中看到的那样。以下代码是否完全错误？mod.py需要成为conda/pip软件包吗？mod.py是写入共享文件系统的。 In [1]: from distributed import Executor ...

pythondistributed-computingdask

16得票3回答

如何将一个压缩的（gz格式）CSV文件读入dask Dataframe？

有没有办法将通过gz压缩的.csv文件读入dask dataframe？我已经尝试直接使用以下方法：import dask.dataframe as dd df = dd.read_csv("Data.gz" ) 但是收到一个Unicode错误（可能是因为正在解释压缩的字节）。有一个"co...

pythoncsvpandasdask

16得票2回答

比较Modin | Dask | Data.table | Pandas在并行处理和超出内存的CSV文件方面的优劣

Dask、Modin 和 Data.table 的基本区别和主要用途是什么？我查看了每个库的文档，它们似乎都提供了一种“类似”的解决方案来克服 pandas 的限制。

pythonpandasdaskmodin

16得票2回答

Dask数据框架：如何获取行数？

简单问题：我有一个dask数据框，其中包含约3亿条记录。我需要知道数据框中确切的行数。有没有一种简单的方法来做到这一点？当我尝试运行 dataframe.x.count().compute() 时，似乎它试图将整个数据加载到RAM中，但由于没有足够的空间而导致崩溃。

pythondataframedask

16得票2回答

在Python中高效读取1500万行CSV文件的方法

为了我的应用程序，我需要读取每个文件15M行的多个文件，将它们存储在DataFrame中，并以HDFS5格式保存DataFrame。我已经尝试了不同的方法，特别是使用chunksize和dtype规范的pandas.read_csv和dask.dataframe。它们都需要大约90秒来处理...

pythonpandasdataframedask

16得票1回答

Dask分布式数据帧上的len函数运行缓慢

我一直在测试如何使用dask（具有20个核心的集群），惊讶于调用len函数与通过loc进行切片的速度差异。 import dask.dataframe as dd from dask.distributed import Client client = Client('192.168.1.2...

pythonperformancedataframedask