最新 'dask' 问题

关联标签

28得票1回答

在Dask分布式系统中，我们如何选择每个工作进程的“--nthreads”和“--nprocs”参数？

在 Dask 分布式中，如何选择每个 worker 的 --nthreads 和 --nprocs？我有 3 个 workers，其中 2 个 workers 每个有 4 个核心和一个线程，1 个 worker 有 8 个核心（根据每个 worker 上 lscpu Linux 命令的输出）。...

distributed-computingdaskdask-distributed

8得票4回答

如何快速比较两个文本文件并获取唯一行？

我有2个文本文件（*.txt），其中包含格式为唯一字符串的数据： udtvbacfbbxfdffzpwsqzxyznecbqxgebuudzgzn:refmfxaawuuilznjrxuogrjqhlmhslkmprdxbascpoxda ltswbjfsnejkaxyzwyjyfggjyn...

pythonpandasdaskvaex

9得票1回答

从delayed集合创建一个大的dask.dataframe时出现Killed/MemoryError错误

我正在尝试从大量CSV文件中创建一个dask.dataframe（目前有12个文件，每个文件有8-10百万行和50列）。其中一些可能适合我的系统内存，但所有文件一次性肯定不适用，因此使用dask而不是普通的pandas。由于读取每个csv文件都涉及一些额外的工作（添加来自文件路径的数据列）...

pythondataframedask

12得票2回答

使用Dask数据框删除列

这应该可以工作： raw_data.drop('some_great_column', axis=1).compute() 但是这一列没有被删除。在Pandas中，我使用：raw_data.drop(['some_great_column'], axis=1, inplace=True) ...

pythonpython-3.xpandasdask

7得票6回答

在 Pandas DataFrame 中保留具有一定数量的非 NaN 条目的索引。

假设我有以下数据框： df1 = pd.DataFrame(data = [1,np.nan,np.nan,1,1,np.nan,1,1,1], columns = ['X'], index = ['a...

pythonpandasdask

7得票2回答

Dask数据框如何处理大于内存的数据集？

Dask数据框的文档中说： Dask数据框看起来和感觉像pandas数据框，但使用多个线程处理大于内存的数据集。但是在同一页的后面：一个Dask数据框由几个内存中的pandas数据框组成，这些数据框沿索引分开。 Dask是否按顺序从磁盘读取不同的数据框分区并执行计算以适应内...

pythondaskbigdata

14得票1回答

如何将多个 Pandas 数据框组合成一个大于内存的 Dask 数据框？

我正在解析以制作表格数据，希望将其存储在HDF5中。我的问题是我必须将数据聚合为一种格式，然后转储到HDF5中。这是大约1TB大小的数据，因此我无法将其全部装入RAM。Dask可能是完成此任务的最佳方式。如果我使用解析数据以适应一个pandas dataframe，则会执行以下操作：...

pandashdf5daskpytablesbigdata

10得票1回答

Dask读取CSV文件失败，而Pandas却能成功

尝试使用dask的read_csv读取文件，就像pandas的read_csv一样dd.read_csv('data/ecommerce-new.csv') 出现以下错误：pandas.errors.ParserError: Error tokenizing data. C error: EO...

pythonpandasdask

12得票2回答

Dask项赋值。无法使用loc进行项赋值。

我有一个parquet文件夹，无法放入内存，因此我使用dask执行数据清洗操作。我有一个函数，我想执行项目分配，但我似乎找不到任何在线解决方案可以解决此特定功能。以下是在pandas中运行的函数。如何在dask dataframe中获得相同的结果？我认为delayed可能有所帮助，但我...

pythonpandasdaskseries

9得票3回答

Dask：如何在列上删除缺失值？

我尝试应用一个过滤器来删除包含太多NAs的列到我的dask数据框中： df.dropna(axis=1, how='all', thresh=round(len(df) * .8)) 很不幸，似乎dask的dropna API与pandas略有不同，它不接受axis或threshold参...

pythonpandasoptimizationdask