我正在使用一个20GB(经过压缩的).csv文件,并使用pandas的
但是,这个参数完全是任意的,我想知道是否有一个简单的公式可以给我更好的chunksize,以加快数据的加载速度。
您有什么建议吗?
pd.read_csv()
从中加载了几列,chunksize参数设置为10,000。但是,这个参数完全是任意的,我想知道是否有一个简单的公式可以给我更好的chunksize,以加快数据的加载速度。
您有什么建议吗?
pd.read_csv(chunksize...)
从中加载了几列。你肯定是指你加载了行吧?你是否还删除了一些或大多数列?如果是这样,那么你感兴趣的部分实际上不再是一个20GB压缩文件了。" - smci