我需要使用Spark SQL的 HiveContext
从Hive表中加载数据并将其加载到HDFS中。默认情况下,SQL输出的 DataFrame
有2个分区。为了获得更多的并行性,我需要从SQL中获得更多的分区。但是在 HiveContext
中没有重载的方法可以接受分区数参数。
重新分区RDD会导致数据混洗,并增加处理时间。
>
val result = sqlContext.sql("select * from bt_st_ent")
已输出以下日志内容:
Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)
我想知道是否有办法增加SQL输出的分区大小。