我正在尝试使用dask在python中并行化时间序列预测。数据格式是每个时间序列为一列,它们具有月度日期的共同索引。我有一个自定义的预测函数,返回一个包含拟合和预测值的时间序列对象。我想将此函数应用于数据框(所有时间序列的所有列),并返回一个包含所有这些序列的新数据框,以上传到数据库。我已经通过运行以下代码使代码正常工作:
我的问题是,Dask是否有一种按列而不是按行进行分区的方法,因为在这种情况下,我需要保持有序的时间索引以使预测函数正确工作。
如果没有,我该如何重新格式化数据,以便能够进行高效的大规模预测,并仍然以我需要推送到数据库的格式返回数据? 数据格式示例
data = pandas_df.copy()
ddata = dd.from_pandas(data, npartitions=1)
res = ddata.map_partitions(lambda df: df.apply(forecast_func,
axis=0)).compute(get=dask.multiprocessing.get)
我的问题是,Dask是否有一种按列而不是按行进行分区的方法,因为在这种情况下,我需要保持有序的时间索引以使预测函数正确工作。
如果没有,我该如何重新格式化数据,以便能够进行高效的大规模预测,并仍然以我需要推送到数据库的格式返回数据? 数据格式示例