如何将多个目录中的多个.parquet文件读入单个pandas数据框架?

3
我需要从多个目录中读取parquet文件。
例如,
 Dir---
          |
           ----dir1---
                      |
                       .parquet
                       .parquet
          |
           ----dir2---
                      |
                       .parquet
                       .parquet
                       .parquet

有没有一种方法可以将这些文件读入一个单独的pandas数据帧中?
注意: 所有parquet文件都是使用pyspark生成的。
1个回答

7

在列表推导式中使用read_parquet,并使用concatglob生成的所有文件一起使用**(Python 3.5+):

import pandas as pd
import glob

files = glob.glob('Dir/**/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])

我得到了这个错误RuntimeError: 解压缩“SNAPPY”不可用。选项:['GZIP','UNCOMPRESSED'] - Ahmad Senousi
1
@AhmadSuliman - 请查看此链接 - jezrael
如果每个目录都有超过30个大约75MB的Parquet文件,它能正常工作吗? - Avantika Banerjee

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接