如何将带有多级索引的Pandas数据框转换为Dask数据框

4
我正在尝试将一个以两个变量(ID和DateTime变量)为多级索引的pandas dataframe 转换为dask dataframe,然而我遇到了以下错误;
"NotImplementedError: Dask does not support MultiIndex Dataframes" 

我正在使用以下代码
import pandas as pd
import dask.dataframe as dd

dask_df = dd.from_pandas(pandas_df)

事实上,我有超过700个pandas数据框(每个超过100 MB),我计划将每个pandas数据框转换为dask,然后将它们全部附加到一个大的dask数据框中以分析整个数据。我认为MultiIndex可能是唯一的问题。如果我走错了,请告诉我。


请注意,虽然dask似乎支持多级列,但它们存在一些行为差异,最好避免使用。 - creanion
1个回答

4

目前Dask DataFrame不支持带有MultiIndexes的数据框。

您可以考虑使用reset_index将除一个索引列之外的所有索引列转换为普通列。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接