我有一个期望输入为pandas数据框的计算。我希望在一个扩展到51GB的netCDF文件中运行此计算,目前我一直在使用
所以,长话短说,我的问题是:如何从xarray数据集获取pandas数据框,而不需要任何中间步骤将全部数据加载到内存中?我看过dask与
谢谢,对于这个模糊的问题感到抱歉!
xarray.open_dataset
打开文件并使用chunks(我的理解是打开的文件实际上是一个dask数组,因此每次只加载数据块到内存中)。然而,似乎无法利用这种惰性加载,因为我必须将xarray数据转换为pandas数据框才能运行计算 - 在那个时候我理解所有数据都被加载到内存中了(这很糟糕)。所以,长话短说,我的问题是:如何从xarray数据集获取pandas数据框,而不需要任何中间步骤将全部数据加载到内存中?我看过dask与
pandas.read_csv
一起工作,也看到它与xarray一起工作,但我不确定如何将已打开的netCDF xarray数据集以块的方式转换为pandas数据框。谢谢,对于这个模糊的问题感到抱歉!