我正在处理一个大小为 ~8GB 的数据集,同时我还在使用scikit-learn对其进行各种机器学习模型的训练。该数据集基本上是由整数一维向量列表组成。
如何使多个Python进程可以访问该数据集,或者如何对数据集进行编码以便可以使用multiprocessing的类呢?我一直在阅读ctypes和multiprocessing的文档,但我非常困惑。我只需要使每个进程都能读取数据,以便我可以用它进行模型训练。
我需要将共享的multiprocessing变量设置为ctypes吗?
如何用ctypes表示数据集?
如何使多个Python进程可以访问该数据集,或者如何对数据集进行编码以便可以使用multiprocessing的类呢?我一直在阅读ctypes和multiprocessing的文档,但我非常困惑。我只需要使每个进程都能读取数据,以便我可以用它进行模型训练。
我需要将共享的multiprocessing变量设置为ctypes吗?
如何用ctypes表示数据集?