28得票1回答
在Dask分布式系统中,我们如何选择每个工作进程的“--nthreads”和“--nprocs”参数?

在 Dask 分布式中,如何选择每个 worker 的 --nthreads 和 --nprocs?我有 3 个 workers,其中 2 个 workers 每个有 4 个核心和一个线程,1 个 worker 有 8 个核心(根据每个 worker 上 lscpu Linux 命令的输出)。...

8得票4回答
如何快速比较两个文本文件并获取唯一行?

我有2个文本文件(*.txt),其中包含格式为唯一字符串的数据: udtvbacfbbxfdffzpwsqzxyznecbqxgebuudzgzn:refmfxaawuuilznjrxuogrjqhlmhslkmprdxbascpoxda ltswbjfsnejkaxyzwyjyfggjyn...

9得票1回答
从delayed集合创建一个大的dask.dataframe时出现Killed/MemoryError错误

我正在尝试从大量CSV文件中创建一个dask.dataframe(目前有12个文件,每个文件有8-10百万行和50列)。其中一些可能适合我的系统内存,但所有文件一次性肯定不适用,因此使用dask而不是普通的pandas。 由于读取每个csv文件都涉及一些额外的工作(添加来自文件路径的数据列)...

12得票2回答
使用Dask数据框删除列

这应该可以工作: raw_data.drop('some_great_column', axis=1).compute() 但是这一列没有被删除。在Pandas中,我使用:raw_data.drop(['some_great_column'], axis=1, inplace=True) ...

7得票6回答
在 Pandas DataFrame 中保留具有一定数量的非 NaN 条目的索引。

假设我有以下数据框: df1 = pd.DataFrame(data = [1,np.nan,np.nan,1,1,np.nan,1,1,1], columns = ['X'], index = ['a...

7得票2回答
Dask数据框如何处理大于内存的数据集?

Dask数据框的文档中说: Dask数据框看起来和感觉像pandas数据框,但使用多个线程处理大于内存的数据集。 但是在同一页的后面: 一个Dask数据框由几个内存中的pandas数据框组成,这些数据框沿索引分开。 Dask是否按顺序从磁盘读取不同的数据框分区并执行计算以适应内...

14得票1回答
如何将多个 Pandas 数据框组合成一个大于内存的 Dask 数据框?

我正在解析以制作表格数据,希望将其存储在HDF5中。 我的问题是我必须将数据聚合为一种格式,然后转储到HDF5中。这是大约1TB大小的数据,因此我无法将其全部装入RAM。Dask可能是完成此任务的最佳方式。 如果我使用解析数据以适应一个pandas dataframe,则会执行以下操作:...

10得票1回答
Dask读取CSV文件失败,而Pandas却能成功

尝试使用dask的read_csv读取文件,就像pandas的read_csv一样dd.read_csv('data/ecommerce-new.csv') 出现以下错误:pandas.errors.ParserError: Error tokenizing data. C error: EO...

12得票2回答
Dask项赋值。无法使用loc进行项赋值。

我有一个parquet文件夹,无法放入内存,因此我使用dask执行数据清洗操作。 我有一个函数,我想执行项目分配,但我似乎找不到任何在线解决方案可以解决此特定功能。 以下是在pandas中运行的函数。 如何在dask dataframe中获得相同的结果? 我认为delayed可能有所帮助,但我...

9得票3回答
Dask:如何在列上删除缺失值?

我尝试应用一个过滤器来删除包含太多NAs的列到我的dask数据框中: df.dropna(axis=1, how='all', thresh=round(len(df) * .8)) 很不幸,似乎dask的dropna API与pandas略有不同,它不接受axis或threshold参...