使用
我尝试了将其保存为固定/表格格式,带/不带压缩,但读取时间在2-5分钟之间。相比之下,对同一数据使用
我还尝试直接使用pytables读取hdf。这样的速度快得多,只需要6秒钟,这是我想要看到的速度。
pandas.read_hdf()
读取大型hdf文件的读取速度非常慢。我的hdf文件有5000万行,3列为整数,2列为字符串。使用带表格式和索引的to_hdf()
写入需要花费近10分钟。虽然这也很慢,但我不太关心,因为读取速度更重要。我尝试了将其保存为固定/表格格式,带/不带压缩,但读取时间在2-5分钟之间。相比之下,对同一数据使用
read_csv()
需要4分钟。我还尝试直接使用pytables读取hdf。这样的速度快得多,只需要6秒钟,这是我想要看到的速度。
h5file = tables.open_file("data.h5", "r")
table = h5file.root.data.table.read()
我注意到文档中所有的速度比较都只使用数字数据,我自己运行测试也得到了类似的性能表现。
我想问一下是否有什么方法可以优化读取性能?
编辑
这里是数据样例:
col_A col_B col_C col_D col_E
30649671 1159660800 10217383 0 10596000 LACKEY
26198715 1249084800 0921720 0 0 KEY CLIFTON
19251910 752112000 0827092 104 243000 WEMPLE
47636877 1464739200 06247715 0 0 FLOYD
14121495 1233446400 05133815 0 988000 OGU ALLYN CH 9
41171050 1314835200 7C140009 0 39000 DEBERRY A
45865543 1459468800 0314892 76 254000 SABRINA
13387355 970358400 04140585 19 6956000 LA PERLA
4186815 849398400 02039719 0 19208000 NPU UNIONSPIELHAGAN1
32666568 733622400 10072006 0 1074000 BROWN
以下是有关数据框的信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52046850 entries, 0 to 52046849
Data columns (total 5 columns):
col_A int64
col_B object
col_C int64
col_D int64
col_E object
dtypes: int64(3), object(2)
memory usage: 1.9+ GB
df.head(10)
。 - MaxU - stand with Ukrainewhere='...query...'
参数? - MaxU - stand with Ukraine