15得票5回答
如何在Hive中一次性删除所有分区?

Hive版本1.1 我有一个如下所示的外部表: CREATE EXTERNAL TABLE `schedule_events`( `schedule_id` string COMMENT 'from deserializer', `service_key` string COMMENT...

15得票2回答
刷新外部Hive表 vs 使用MSCK修复表格

我有一个存储为Parquet格式的外部Hive表,按照一个名为as_of_dt的列进行分区,并通过Spark Streaming插入数据。现在每天都会添加新的分区。我正在执行msck repair table,以便Hive metastore获取新添加的分区信息。这是唯一的方法吗?还是有更好的...

8得票4回答
如何向现有的Hive分区表添加列?

alter table abc add columns (stats1 map<string,string>, stats2 map<string,string>) 我已使用上述查询更改了我的表格。但是在检查数据后,我发现这两个额外列都是NULL。我无法获取数据。 ...

8得票4回答
如何在Hive中截断分区外部表?

我打算截断具有一个分区的Hive外部表。因此,我使用了以下命令来截断表: hive> truncate table abc; 但是,它抛出了一个错误,指出:无法截断非托管表 abc。 有人可以就此向我提供建议吗...

7得票1回答
将Spark Structured Streaming Writestream写入Hive ORC分区外部表

我正在尝试使用Spark结构化流的writeStream API将数据写入外部分区Hive表。 CREATE EXTERNAL TABLE `XX`( `a` string, `b` string, `b` string, `happened` timestamp, `processed` ...

7得票1回答
使用 Presto 插入静态 Hive 分区

假设我想使用Presto向静态的hive分区插入数据,这样做可以吗? PARTITION关键字只适用于hive。 INSERT INTO TABLE Employee PARTITION (department='HR') 由于:com.facebook.presto.sql.par...

7得票2回答
使用Pyspark获取Hive分区列逻辑中的最新分区

我是新手pySpark。我正在尝试使用PySpark-dataframes获取hive表的最新分区(日期分区),并且做法如下。但我确信有更好的方法可以使用dataframe函数(而不是编写SQL)来完成。您能否请分享更好的方法。这个解决方案会扫描整个Hive表的数据来获取它。 df_1 = ...