我有一个存储为Parquet格式的外部Hive表,按照一个名为as_of_dt
的列进行分区,并通过Spark Streaming插入数据。现在每天都会添加新的分区。我正在执行msck repair table
,以便Hive metastore获取新添加的分区信息。这是唯一的方法吗?还是有更好的方式?我担心下游用户查询表时,msck repair
会导致数据不可用或过期数据的问题。我正在查看HiveContext
API,并看到了refreshTable
选项。你有什么想法,是否可以使用refreshTable
代替?