如何使用Dask将函数应用于大型数据集的单个列？

Question

8

如果想在使用Dask处理大型数据集时，对单列进行对数计算，应该如何操作？

df_train.apply(lambda x: np.log1p(x), axis=1 , meta={'column_name':'float32'}).compute()

数据集非常庞大（1.25亿行），我该怎么做？

- ambigus9

df_train.float32.map(np.log1p) 怎么样？ - cs95

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MRocklin · Accepted Answer

您有几个选项：

就像您的pandas dataframe可以使用numpy函数一样

import numpy as np
result = np.log1p(df.x)

Dask数据框可以使用Dask数组函数。

import dask.array as da
result = da.log1p(df.x)

但是，也许没有适用于您特定函数的dask.array函数。您始终可以使用map_partitions，在您的dask dataframe中应用任何通常在pandas数据帧上完成的函数，涵盖所有组成您dask dataframe的pandas数据帧。

Pandas

result = f(df.x)

Dask DataFrame

result = df.x.map_partitions(f)

你可以使用map或apply(axis=0)方法，但就像在Pandas中一样，这些方法通常对性能非常不利。