DataFrame中最大列数在Spark Scala中是多少?

6

我想知道数据框中最大列数的限制,是否有保持数据框列数的限制。

谢谢。

1个回答

8
不细说,答案是“是”,Apache Spark中列数有大小限制。理论上讲,这个限制取决于平台和每列元素的大小。别忘了,Java受JVM大小的限制,执行程序也受此限制-请参考Java堆中最大对象大小。我会回到这里并参考为什么Spark RDD分区在HDFS上有2GB的限制?,它提到了HDFS块/分区大小的限制。因此,实际上有很多限制需要考虑。这意味着你可以轻松地找到一个硬性限制(例如Int.MaxValue),但更重要的是,Spark只能很好地扩展长而相对较薄的数据(如pault所述)。

最后,需要记住的是,基本上你不能在执行器/分区之间拆分单个记录。而且有许多实际限制(GC、磁盘IO),使得非常宽的数据不切实际。更不用提一些已知的错误。

注意:我提到了@pault和@RameshMaharjan,因为这个答案实际上是我们讨论的结果。(当然还有@zero323在另一个answer中的评论)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接