我已经使用Spark生成了一些分区parquet数据,现在想知道如何将其映射到Impala表中...不幸的是,我还没有找到任何解决方案。
parquet的模式如下:
{ key: long,
value: string,
date: long }
我将它使用key
和date
进行分区,这使得我的HDFS上出现了以下这种类型的目录:
/data/key=1/date=20170101/files.parquet
/data/key=1/date=20170102/files.parquet
/data/key=2/date=20170101/files.parquet
/data/key=2/date=20170102/files.parquet
...
您知道如何告诉Impala使用相应的分区从数据集创建表格(而无需循环每个分区,因为可以读取)吗?这是否可能?
提前感谢您。
hiveContext
将数据插入该表中,最后在Impala中运行REFRESH命令以确认新的数据文件吗? - Samson Scharfrichterdate
列可能会带来麻烦,因为它是SQL中的保留字...! - Samson Scharfrichter