我使用的是Spark 1.6.1版本。
我的Spark应用程序读取了存储在S3中的10000多个Parquet文件。
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
myPaths
是一个包含10000个parquet文件路径的Array[String]
。每个路径的格式如下:s3n://bucketname/blahblah.parquet
Spark会发出以下警告消息:
WARN TaskSetManager: Stage 4包含一个非常大的任务(108KB)。最大推荐任务大小为100KB。
尽管Spark仍然可以运行和完成作业,但我猜这可能会减慢Spark处理作业的速度。
是否有人对此问题有好的建议?