我正在尝试使用以下代码使用DASK拆分Parquet文件。
import dask.dataframe as pd
df = pd.read_parquet(dataset_path, chunksize="100MB")
df.repartition(partition_size="100MB")
pd.to_parquet(df,output_path)
我的输入只有一个物理文件,即file.parquet
这个脚本的输出也只有一个文件,即part.0.parquet。
根据partition_size和chunksize参数,我应该有多个输出文件。
如果能提供帮助,将不胜感激。