如何使用Pyspark计算Apache Spark数据框的大小？

Question

如何使用Pyspark计算Apache Spark数据框的大小？

apache-sparkpysparkapache-spark-sql

11

有没有一种使用pyspark计算Apache Spark数据框大小的字节数的方法？

- Mihai Tache

1

你究竟希望从这里学到什么？ - zero323

1

可能是 https://dev59.com/gVsW5IYBdhLWcg3wZmqc 的重复问题。 - Himaprasoon

3

我试图通过重新分区数据框并基于其大小来限制导出数据框时输出文件的数量。 - Mihai Tache

这里有一个可能的解决方法。您可以使用 df.count() 轻松找出您正在处理的行数，然后使用 df.write.option("maxRecordsPerFile", 10000).save(file/path/) 获取您想要的确切输出文件数量。它还可以帮助您节省非常昂贵的 repartition。这会有所帮助吗？ - Omar

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- thePurplePython · Accepted Answer

为什么不将df缓存，然后在Spark UI的存储部分查看并将单位转换为字节呢？最初的回答。

df.cache()