我有一个包含1万列和7000万行的DF。我想计算这1万列的平均值和相关性。我尝试了以下代码,但由于代码大小达到了64K的限制而无法执行(https://issues.apache.org/jira/browse/SPARK-16845)。
数据:
数据:
region dept week sal val1 val2 val3 ... val10000
US CS 1 1 2 1 1 ... 2
US CS 2 1.5 2 3 1 ... 2
US CS 3 1 2 2 2.1 2
US ELE 1 1.1 2 2 2.1 2
US ELE 2 2.1 2 2 2.1 2
US ELE 3 1 2 1 2 .... 2
UE CS 1 2 2 1 2 .... 2
代码:
aggList = [func.mean(col) for col in df.columns] #exclude keys
df2= df.groupBy('region', 'dept').agg(*aggList)
代码 2
aggList = [func.corr('sal', col).alias(col) for col in df.columns] #exclude keys
df2 = df.groupBy('region', 'dept', 'week').agg(*aggList)
这个失败了。有没有其他的方法来解决这个错误?有人尝试过10K列的DF吗?有没有性能改进的建议?