如何使用Pyspark计算Apache Spark数据框的大小?

11

有没有一种使用pyspark计算Apache Spark数据框大小的字节数的方法?


1
你究竟希望从这里学到什么? - zero323
1
可能是 https://dev59.com/gVsW5IYBdhLWcg3wZmqc 的重复问题。 - Himaprasoon
3
我试图通过重新分区数据框并基于其大小来限制导出数据框时输出文件的数量。 - Mihai Tache
这里有一个可能的解决方法。您可以使用 df.count() 轻松找出您正在处理的行数,然后使用 df.write.option("maxRecordsPerFile", 10000).save(file/path/) 获取您想要的确切输出文件数量。它还可以帮助您节省非常昂贵的 repartition。这会有所帮助吗? - Omar
1个回答

2
为什么不将df缓存,然后在Spark UI的存储部分查看并将单位转换为字节呢?最初的回答。
df.cache()

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接