假设有一张按 int 类型字段 some_field 分区的 Hive 表,其中数据以 Avro 文件形式存储。我想使用 Spark SQL 查询该表,并确保返回的 Data Frame 已经按 some_field(用于分区)进行了分区。
查询语句如下:
SELECT * FROM some_table
默认情况下,Spark不会这样做,返回的data_frame.rdd.partitioner为None。
一种获得结果的方法是在查询后进行显式的重分区,但可能有更好的解决方案。
HDP 2.6,Spark 2。
谢谢。