我有一个非常简单的脚本,使用 pandas.parse_csv
方法加载大型数据集。
import pandas as pd
import numpy as np
USE_COLUMNS = [0,1,2,11,13,14]
def parse_csv(filename):
df = pd.read_csv(filename,
header=None,
compression='bz2',
delim_whitespace=True,
dtype={11:np.float32, 13:np.float32, 14:np.float32},
skip_blank_lines=True,
skiprows=4,
parse_dates=[[1,2]],
usecols=USE_COLUMNS,
error_bad_lines=False,
infer_datetime_format=True,
iterator=True,
chunksize=100000,
low_memory=False,
engine='c')
return df
fname = 'test.log.bz2'
iter = parse_csv(fname)
df = pd.concat([chunk[chunk[14] > 60000] for chunk in iter])
print df
文件test.log.bz2
压缩后为1.1GB,解压后超过5GB,共有15列,只使用其中的一些。在我的本地机器上,运行该脚本需要约200秒。但在生产环境中,它需要53分钟(16倍减速)!我该怎么解决呢?
在我的本地机器上,我使用的是SATA SSD,而在生产环境中,NFS支持的文件系统是唯一的选择。
我正在使用 pandas 版本 0.16.2。
我在我的本地机器上使用 strace 运行了此脚本,以下是结果:
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
57.09 0.038753 2 15618 mremap
18.83 0.012780 0 109476 munmap
14.81 0.010055 0 109669 mmap
3.44 0.002337 0 259922 read
2.10 0.001427 0 5549 4780 open
1.45 0.000987 1 713 brk
strace
在生产环境中的结果:
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
92.41 0.491816 46 10766 mremap
4.59 0.024412 7 3491 2814 open
0.76 0.004065 0 9897 read
0.75 0.003999 15 274 274 unlink
0.50 0.002652 3 974 838 stat
0.47 0.002498 1249 2 clone
0.35 0.001865 0 4659 munmap
------ ----------- ----------- --------- --------- ----------------
100.00 0.532200 37118 3997 total
concat()
的使用。 - MaxU - stand with Ukrainefread
(在R中)所需时间的20倍。我们需要比read.csv
更好的东西。要好得多。 - Hack-R