我需要从不是父目录或子目录的多个路径中读取parquet文件。
例如,
dir1 ---
|
------- dir1_1
|
------- dir1_2
dir2 ---
|
------- dir2_1
|
------- dir2_2
sqlContext.read.parquet(dir1)
从 dir1_1 和 dir1_2 读取 Parquet 文件
目前我正在读取每个目录并使用 "unionAll" 合并数据框。是否有一种不使用 unionAll
读取 dir1_2 和 dir2_1 中的 Parquet 文件的方法,或者是否有任何花哨的方法可以使用 unionAll
谢谢