Pandas PyTables追加：性能和文件大小增加

Question

Pandas PyTables追加：性能和文件大小增加

3

我有超过500个PyTables存储器，每个存储器包含大约300Mb的数据。我希望使用pandas中的append将这些文件合并成一个大的存储器，如下面的代码。

def merge_hdfs(file_list, merged_store):
    for file in file_list:
        store = HDFStore(file, mode='r')
        merged_store.append('data', store.data)
        store.close()

追加操作非常缓慢（每次向merged_store添加一个存储空间需要长达10分钟），而且奇怪的是，每次添加一个存储空间后，merged_store文件的大小似乎会增加1 GB。

根据文档，我已经指定了预期行数，这应该可以提高性能。我读了Improve pandas (PyTables?) HDF5 table write performance，并期望有较长的写入时间，但每300 MB几乎需要10分钟似乎太慢了，而且我无法理解为什么会增加大小。

我想知道是否有什么我错过了？

附加信息：以下是500个PyTables中的一个描述。

/data/table (Table(272734,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(6,), dflt=0.0, pos=1),
  "id": StringCol(itemsize=11, shape=(), dflt='', pos=2),
  "datetaken": Int64Col(shape=(), dflt=0, pos=3),
  "owner": StringCol(itemsize=15, shape=(), dflt='', pos=4),
  "machine_tags": StringCol(itemsize=100, shape=(), dflt='', pos=5),
  "title": StringCol(itemsize=200, shape=(), dflt='', pos=6),
  "country": StringCol(itemsize=3, shape=(), dflt='', pos=7),
  "place_id": StringCol(itemsize=18, shape=(), dflt='', pos=8),
  "url_s": StringCol(itemsize=80, shape=(), dflt='', pos=9),
  "url_o": StringCol(itemsize=80, shape=(), dflt='', pos=10),
  "ownername": StringCol(itemsize=50, shape=(), dflt='', pos=11),
  "tags": StringCol(itemsize=505, shape=(), dflt='', pos=12)}
  byteorder := 'little'
  chunkshape := (232,)

- danieleb

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jeff · Accepted Answer

这基本上是我最近回答的这里的答案。总之，您需要关闭索引store.append('df',df,index=False)。当创建存储时，然后在末尾进行索引。

此外，在合并表格时也要关闭压缩。索引是一项相当昂贵的操作，如果我记得正确，只使用一个处理器。

最后，请确保您使用mode ='w'创建了合并文件，因为所有后续操作都是追加操作，您想开始一个全新的文件。

我也不会预先指定chunksize。相反，在创建最终索引后，使用ptrepack执行压缩，并指定chunksize = auto，它将为您计算。我认为这不会影响写入性能，但会优化查询性能。

您可能还需要将append的chunksize参数（这是写入块大小）调整为更大的数字。

显然，请确保每个追加的表具有完全相同的结构（如果不是，则会引发错误）。我为此创建了一个增强问题：“内部”执行此操作：https://github.com/pydata/pandas/issues/6837。