我经常使用
然而,每行数据的来源,即从哪个文件中读取的数据看起来已经永久丢失。
有没有一种方法可以将其作为列添加进去,例如,如果
这样做的想法是可以根据来源应用不同的逻辑。
dask.dataframe
来读取多个文件,如下所示:import dask.dataframe as dd
df = dd.read_csv('*.csv')
然而,每行数据的来源,即从哪个文件中读取的数据看起来已经永久丢失。
有没有一种方法可以将其作为列添加进去,例如,如果
file1.csv
是第一个包含 100 行的文件,则 df.loc[:100, 'partition'] = 'file1.csv'
。当触发工作流程中的 compute
时,将应用于读入数据帧的每个“partition”/文件。这样做的想法是可以根据来源应用不同的逻辑。