我正在并行处理多个大型csv文件。我希望为每个文件都有一个进度条。
然而,虽然我显示了5个进度条,但只有最后一个被更新 - 似乎是所有进程同时更新的。由于我无法将整个csv文件读入内存,因此我使用filesize来显示进度。
inputArg是以数字结尾的文件夹路径。
def worker(inputArg):
with open(inputArg + '/data.csv') as csvfile:
size = os.path.getsize(inputArg + '/data.csv')
text = "progresser #{}".format(inputArg[-1])
pb = tqdm(total=size, unit="B", unit_scale=True, desc=text, position=int(inputArg[-1]))
reader = csv.reader(csvfile, delimiter=',')
for row in reader:
pb.update(len(row))
session.execute(*INSERT QUERY*)
def scheduler(inputData):
p = multiprocessing.Pool(multiprocessing.cpu_count()+1)
p.map(worker, inputData)
p.close()
p.join()
if __name__ == '__main__':
folders = glob.glob('FILEPATH/*')
print ('--------------------Insert started---------------')
scheduler(folders)
print('---------------------All Done---------------------')
任何提示都将不胜感激!
编辑:我确实查看了其他答案,但我明确表示我想要多个进度条,而那个答案只给出了一个。因此,这不是重复的。
编辑2:这是@bouteillebleu的样子,我得到了我的进度条,但由于某种原因只更新了最后一个。 当前进度条