我有一个包含6000个视频的大型数据集,使用名为process.py
的Python脚本进行处理。问题是处理整个数据集需要很长时间。因此,我想到将数据集分成4个部分,然后将相同的代码复制到不同的Python脚本(例如process1.py
、process2.py
、process3.py
和process4.py
),并在不同的shell中运行每个脚本来处理不同部分的数据集。
我的问题是这样做是否有助于提高性能?我有一台有10个核心的机器,如果我能利用这个多核结构,那将非常有益。我听说过Python的multiprocessing
模块,但不幸的是,我对它不太了解,并且我编写脚本时没有考虑使用其功能。同时我想知道,启动不同shell上的每个脚本是不是无意义的?是否有一种方法可以选择每个脚本使用哪个核心?