在我的应用程序中,我使用groupby对dask dataframe进行聚合,并按特定id排序。
然而,我希望聚合保持分区划分,因为我打算与其他完全分区的dataframe执行连接操作。
import pandas as pd
import numpy as np
import dask.dataframe as dd
df =pd.DataFrame(np.arange(16), columns=['my_data'])
df.index.name = 'my_id'
ddf = dd.from_pandas(df, npartitions=4)
ddf.npartitions
# 4
ddf.divisions
# (0, 4, 8, 12, 15)
aggregated = ddf.groupby('my_id').agg({'my_data': 'count'})
aggregated.divisions
# (None, None)
有没有实现这个目标的方法?
my_id
为索引的。 - MRocklin