我正在使用SPARK读取HDFS中的文件。有一种情况,我们从旧系统以CSV格式获取文件的块。
ID1_FILENAMEA_1.csv
ID1_FILENAMEA_2.csv
ID1_FILENAMEA_3.csv
ID1_FILENAMEA_4.csv
ID2_FILENAMEA_1.csv
ID2_FILENAMEA_2.csv
ID2_FILENAMEA_3.csv
使用HiveWareHouse Connector将这些文件加载到HIVE中的FILENAMEA,进行一些转换,比如添加默认值。类似地,我们有大约70个表。Hive表以ORC格式创建。表按ID分区。目前,我正在逐个处理所有这些文件。这需要很多时间。
我希望能够加快这个过程。这些文件将达到几个GB。
是否有任何方法可以同时读取所有FILENAMEA文件并将其加载到HIVE表中。