在to_hdf
的调用中使用append=True
:
import numpy as np
import pandas as pd
filename = '/tmp/test.h5'
df = pd.DataFrame(np.arange(10).reshape((5,2)), columns=['A', 'B'])
print(df)
df.to_hdf(filename, 'data', mode='w', format='table')
del df
df2 = pd.DataFrame(np.arange(10).reshape((5,2))*10, columns=['A', 'B'])
df2.to_hdf(filename, 'data', append=True)
print(pd.read_hdf(filename, 'data'))
产出。
A B
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
0 0 10
1 20 30
2 40 50
3 60 70
4 80 90
请在第一次调用
df.to_hdf
时使用
format='table'
以使表可附加。否则,默认的格式为
'fixed'
,这更快地读写,但会创建一个无法附加的表。
因此,您可以逐个处理每个CSV文件,使用
append=True
构建hdf5文件。然后覆盖DataFrame或使用
del df
允许旧的DataFrame被垃圾回收。
另外,您可以选择直接
附加到HDFStore而不是调用
df.to_hdf
。
import numpy as np
import pandas as pd
filename = '/tmp/test.h5'
store = pd.HDFStore(filename)
for i in range(2):
df = pd.DataFrame(np.arange(10).reshape((5,2)) * 10**i, columns=['A', 'B'])
store.append('data', df)
store.close()
store = pd.HDFStore(filename)
data = store['data']
print(data)
store.close()
产出。
A B
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
0 0 10
1 20 30
2 40 50
3 60 70
4 80 90